baidu蜘蛛的代码剖析与畜养技法

朱岩 · 发表于 2013-01-01 09:41:11

　baidu蜘蛛的代码剖析与畜养技法

先申说下，不是淮安仁爱seor写的，是网上收集再整理的，有错误的下边的奉复申说，虚心求教。假如用虚拟主机的朋友，可以FTP的你的空间上找到logfiles文件夹，下边的.log文件就是IIS日记了
　　研讨se爬行规律对于网页seo意义重大，出奇是对baidu蜘蛛Baiduspider的研讨。本文讲解一下baidu蜘蛛爬行后回返代码代表的具体含义：
　　2xx 成功

　　201 正常;紧接 POST 命令。
　　202 正常;已接纳用于办理，但办理尚未完成。
　　203 正常;局部信息 - 回返的信息只是一局部。
　　204 正常;无响应 - 已收缴烦请，但不存在要回送的信息。
　　3xx 重定向
　　301 已移动 - 烦请的数据具备新的位置且更改是永久的。
　　302 已找到 - 烦请的数据临时具备不一样 URI。
　　303 请参看其他 - 可在另一 URI 下找到对烦请的响应，且应使役 GET 办法检索此响应。
　　304 未修改 - 未按预期修改文档。
　　305 使役摄理 - 务必经过位置字段中提供的摄理来过访烦请的资源。
　　306 未使役 - 不再使役;保存此代码以便日后使役。
　　4xx 客户机中出现的不对
　　400 不对烦请 - 烦请中有语法问题，或不得知足烦请。
　　401 未授权 - 未授权客户机过访数据。
　　402 需要付款 - 表达计费系统已管用。
　　403 禁阻 - 纵然有授权也不必过访。
　　404 找不到 - 服务器找不到给定的资源;文档不存在。
　　407 摄理认证烦请 - 客户机首先务必使役摄理认证自身。
　　410 烦请的网页不存在(永久);
　　415 媒介类型不受支持 - 服务器谢绝服务烦请，因为不支持烦请实体的款式。
　　5xx 服务器中出现的不对
　　500 内部不对 - 因为非命情况，服务器不得完成烦请。

　　502 不对网关 - 服务器收缴到来自上游服务器的无效响应。
　　503 无法得到服务 - 因为临时转载或保护，服务器无法办理烦请。
　　譬如说：

　　这就意味着baidu蜘蛛在2008-10-27 04:25:32 爬过/index.html这一页，304代表了它发现这页是没有更新过的。依据这个我们可以多查看iis日记，研讨蜘蛛爬行的途径，找出自个儿网页存在的问题，进而修改。

　　在baidu研讨院的论坛里看见一位斑竹有这么的一段讲解：
　　蜘蛛在IIS里的行径200 0 64 的讲解：
　　依据我前段时间迄今的打量，虽然没有足够的凭证，不过基本上可以肯定在IIS中，假如蜘蛛后面的号头出现200 0 64，那么网页中的这个单页面便会在搜引得擎中消逝了.我被K的页面后面都写着200 0 64 ,不晓得大家是否认同，还有其它看法，当然，我说这个不够完全,因为我也有一个页面后面预示着200 0 64 不过在搜引得擎中依然可以找到.这也申说着问题，但大多200 0 64行径的网页就已经没有了.
　　所以我感到蜘蛛的200 0 64行径可以被讲解为荡除数据。
　　这个讲解，现下看上去仍然有可信度的。我认为，抓取面貌成200 0 64是不正常的抓取，正常的抓取是成功微记200 0 0，当成为了200 0 64的面貌时申说搜引得擎在抓取这个页面的时分出现了不对，没有正常的施行常理抓取;对于baidu来说，baidu很可能是已经不再把这些页面抓进主引得库，而是放进了“baidu沙盒”里施行考察，考察多久，就看你若何改进，或许，你看不到baidu把这些被K的网页开释出来的时分，人是没有规律的。
　　正巧，我手上也有被baiduK的网页，敞开这个网页的IIS日记(.log后缀，如ex080222.log)，果不其然，也发现了baidu回返200 0 64的面貌：

　　淮安仁爱对于已经被baidu拔毛的网页来说，假如你还在乎baidu，那就连忙修改网页上的一切作弊的地方，消弭过度seo，消弭恶意链接，等待baidu再次光临，普通来说，这需要2-3个月的时间，仍然认真做站，先想着用户为好。

【本文是由淮安仁爱:http://www.hank120.com为大家分享!】

好运鞋网 · 发表于 2013-01-01 09:58:41

百度返回码我不知怎么查呢？不过好像爬行还可以。

嗜血邪魔 · 发表于 2026-03-16 19:32:19

楼主辛苦了，整理这么多内容，必须点赞收藏

		自动登录	找回密码
密码			加入怎通

[站长八卦] baidu蜘蛛的代码剖析与畜养技法

[站长八卦] 　baidu蜘蛛的代码剖析与畜养技法