|
% j4 j( U5 Q# [& E5 g 对于网站运营人员而言会特别关注搜索引擎蜘蛛抓取网站的频率,一旦发现SEO出现问题时运营人员就需要分析网站访问日志来分析原因一个网站每天产生的日志是比较多的,如何从日志里辨别是否是百度蜘蛛的请求呢?主要有以下几种方式。
! c/ b7 d# |% {+ W4 R: |( W 通过UA来辨别百度蜘蛛UA头信息指的是用户代理信息,里面会记录客户端系统及浏览器的一些信息,如果UA头信息里出现了Baiduspider 则代表是百度蜘蛛程序发起的请求。 2 Z9 a! v `+ x" Y6 P& C7 d5 o8 s
通过来源IP段来辨别百度蜘蛛百度蜘蛛它是一个综合性蜘蛛程序,它有IP段范围的(如:220.181.108.75~220.181.108.123),比如抓取首页的蜘蛛程序用到的IP和抓取内页用到的IP可能是不同的。 $ A9 z! k) B4 R; @6 o: d! T' G+ G
网络上有百度蜘蛛的IP段分布表,大家可以去查下资料,但为了准确性建议向百度官方咨询具体的IP段范围查询来访IP绑定的域名我们可以通过技术手段查询某个IP与域名的绑定关系,在Windows上可通过nslookup命令来查询。
( k0 W8 ~2 y; c* V 比如我们从日志里定位到了百度蜘蛛的IP地址,则可以直接以下命令确认是否绑定的是百度的域名: * _' P q- n* n
总结:无论是通过UA头信息还是IP段来判断某个IP是否是百度蜘蛛所使用的IP,都存在风险,因为UA头和来源IP都是可以伪造的!以上就是我的观点,对于这个问题大家是怎么看待的呢?欢迎在下方评论区交流 ~ ; @* P8 J% j+ U6 Q& ~
1 @5 |2 {7 b0 _) N2 c0 U" K
8 k5 C% g3 J9 x) Q
: |1 d4 y& A% Z) a3 d, \) M( H5 w4 G/ I
|