- A+
所属分类:互联网·技术经验
平时查看网站访客记录的时候,使用百度统计会自动过滤掉大部分的爬虫记录,但是这个过滤也不是100%完全过滤的,偶尔会有一些漏网之鱼,如何判断百度统计的访客记录哪些是爬虫呢?经过我的对比分析发现了规律。
如图,访问时间未知的基本是爬虫ip。怎么确定呢,首先这几个ip看起来就很有问题,前面都是一样的。然后介绍一个重要工具:https://ip.rtbasia.com/
访问时长显示未知的原因:当用户快速关闭浏览器、长时间未对页面进行操作或出现网络问题时,系统会无法获取到页面的关闭信息,从而使最后一个页面的访问时长无法计算。所以仅看这个数据不是太准确。
上面的这个工具很明确的可以检测到大部分的ip是爬虫的结果,如果ip是普通宽带的话,会显示真人概率,基本也能查询出来,是个很方便的工具。