判断网站来访ip是真人还是爬虫的方法

  • A+

平时查看网站访客记录的时候,使用百度统计会自动过滤掉大部分的爬虫记录,但是这个过滤也不是100%完全过滤的,偶尔会有一些漏网之鱼,如何判断百度统计的访客记录哪些是爬虫呢?经过我的对比分析发现了规律。
判断网站来访ip是真人还是爬虫的方法

如图,访问时间未知的基本是爬虫ip。怎么确定呢,首先这几个ip看起来就很有问题,前面都是一样的。然后介绍一个重要工具:https://ip.rtbasia.com/
判断网站来访ip是真人还是爬虫的方法

访问时长显示未知的原因:当用户快速关闭浏览器、长时间未对页面进行操作或出现网络问题时,系统会无法获取到页面的关闭信息,从而使最后一个页面的访问时长无法计算。所以仅看这个数据不是太准确。

上面的这个工具很明确的可以检测到大部分的ip是爬虫的结果,如果ip是普通宽带的话,会显示真人概率,基本也能查询出来,是个很方便的工具。

小结:从网站日志看到的大部分ip都是机器人或者爬虫(针对我这种基本没有流量的网站),如果想查看真实访客情况,可以使用百度统计,它会过滤大部分机器人,然后再通过查看访问时间初步推断然后使用这个在线工具确定基本就可以排除掉爬虫的ip。其实也只有像我这样的日ip都超不过个位数的网站这样瞎折腾,ip几千几万的网站哪儿还有闲心看这些,就是想看也看不过来吧哈哈。

yishuihan

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: