|
百度蜘蛛(Baiduspider)爬取是搜索引擎获得页面内容的一个重要的途径,通过蜘蛛的抓取可以得到一个页面的最主要的内容从而收录百度数据库系统,每次抓取之后都会再与数据库原有的信息进行比对,来确定页面的总体质量。 那么,每当蜘蛛来抓取的时候都会被网站日志文件记录下来,具体包括抓取时间,抓取的页面以及蜘蛛来路IP地址,所以今天就说一说,关于不同来路IP所代表的一些基本含义: 123.125.68.*这个蜘蛛经常来,别的来的少,表示网站可能要进入沙盒了,或被者降权。
9 g- e# r' w2 b4 f1 N+ S; m 220.181.68.*每天这个IP 段只增不减很有可能进沙盒或K站。
3 n* t0 Q6 s+ B `* g' M 220.181.7.*、123.125.66.* 代表百度蜘蛛IP造访,准备抓取你东西。
- a6 H, S5 Y0 B; i 121.14.89.*这个ip段作为度过新站考察期。* l/ q; ^1 t" \
203.208.60.*这个ip段出现在新站及站点有不正常现象后。
' X& Z/ W" e |. ?, r 210.72.225.*这个ip段不间断巡逻各站。
4 {1 o5 g. S6 c, g% s 125.90.88.* 广东茂名市电信也属于百度蜘蛛IP 主要造成成分,是新上线站较多,还有使用过站长工具,或SEO综合检测造成的。
! @; r9 F& d9 q& m 220.181.108.95这个是百度抓取首页的专用IP,如是220.181.108段的话,基本来说你的网站会天天隔夜快照,绝对错不了的,我保证。5 r0 N, N5 ?) t a
220.181.108.92 同上98%抓取首页,可能还会抓取其他 (不是指内页)220.181段属于权重IP段此段爬过的文章或首页基本24小时放出来。
( @8 g3 `$ i& f, Z7 v8 N$ K 123.125.71.106 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
" z9 I5 Z; V5 O, v 220.181.108.91属于综合的,主要抓取首页和内页或其他,属于权重IP 段,爬过的文章或首页基本24小时放出来。
8 V* d% P0 M% z' J- I; Z 220.181.108.75重点抓取更新文章的内页达到90%,8%抓取首页,2%其他。权重IP 段,爬过的文章或首页基本24小时放出来。6 x2 V' v8 c8 l0 T. g, i5 {
220.181.108.86专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。" {. v7 Q- ~8 J2 v& r0 W
123.125.71.95 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
z) B0 _# r( O+ q4 d; u3 O 123.125.71.97 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
) x) i* ?) ~4 O" ^ 220.181.108.89专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。/ J( E6 }5 ~4 D8 ]- R
220.181.108.94专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
" D0 J% h# O# y# o 220.181.108.97专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。
: @+ n% z1 V0 D8 Q5 p5 ]8 `0 a 220.181.108.80专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。: G. o9 u3 O# I ] M* _2 @
220.181.108.77 专用抓首页IP 权重段,一般返回代码是304 0 0 代表未更新。6 b8 e+ i- f# v
123.125.71.117 抓取内页收录的,权重较低,爬过此段的内页文章不会很快放出来,因不是原创或采集文章。
9 A. u& x5 G2 Q6 E 220.181.108.83专用抓取首页IP 权重段,一般返回代码是304 0 0 代表未更新。 大家可以对比一下自己网站的日志,看看蜘蛛来路的IP地址是哪一个段的,不能说完全符合这个情况,但是大概的走向还是正确的。同时结合对网站最近的调整和排名情况进行综合分析,找出正确的原因并且去该正好就可以了!
' L4 A5 E, I" Z& j7 F% _本文来源:葵子麝香http://www.hexiehuagong.com& U' I6 D& n! a) y8 S. W& c8 W0 o
) t& e# K8 S- g |