百度蜘蛛返回码的含义和建议

TONY · 发表于 2011-11-28 19:17:44

百度爬虫在进行抓取和处理时，是根据http协议规范来设置相应的逻辑的，所以请站长们也尽量参考http协议中关于返回码的含义的定义来进行设置。

百度spider对常用的http返回码的处理逻辑是这样的：
1、404
404返回码的含义是“NOT FOUND”，百度会认为网页已经失效，那么通常会从搜索结果中删除，并且短期内spider再次发现这条url也不会抓取。

2、503
503返回码的含义是“Service Unavailable”，百度会认为该网页临时不可访问，通常网站临时关闭，带宽有限等会产生这种情况。对于网页返回503，百度spider不会把这条url直接删除，短期内会再访问。届时如果网页已恢复，则正常抓取；如果继续返回503，短期内还会反复访问几次。但是如果网页长期返回503，那么这个url仍会被百度认为是失效链接，从搜索结果中删除。

3、403
403返回码的含义是“Forbidden”，百度会认为网页当前禁止访问。对于这种情况，如果是新发现的url，百度spider暂不会抓取，短期内会再次检查；如果是百度已收录url，当前也不会直接删除，短期内同样会再访问。届时如果网页允许访问，则正常抓取；如果仍不允许访问，短期内还会反复访问几次。但是如果网页长期返回403，百度也会认为是失效链接，从搜索结果中删除。

4、301
301返回码的含义是“Moved Permanently”，百度会认为网页当前跳转至新url。当遇到站点迁移，域名更换、站点改版的情况时，推荐使用301返回码，尽量减少改版带来的流量损失。虽然百度spider现在对301跳转的响应周期较长，但我们还是推荐大家这么做。

我们的建议
1、如果站点临时关闭，当网页不能打开时，不要立即返回404，建议使用503状态。503可以告知百度spider该页面临时不可访问，请过段时间再重试。

2、如果百度spider对您的站点抓取压力过大，请尽量不要使用404，同样建议返回503。这样百度spider会过段时间再来尝试抓取这个链接，如果那个时间站点空闲，那它就会被成功抓取了。

3、有一些网站希望百度只收录部分内容，例如审核后的内容，累积一段时间的新用户页等等。在这种情况，建议新发内容暂时返回403，等审核或做好处理之后，再返回正常状态的返回码。

4、站点迁移，或域名更换时，请使用301返回码。

wjgbyy222 · 发表于 2026-01-19 00:34:16

这个分享太实用了，刚好能用到，感谢楼主！

别致滴小伙 · 发表于 2026-03-13 13:53:55

说得很实在，没有夸大其词，这种真实分享太难得了

西万路小混混 · 发表于 2026-04-30 11:47:06

蹲了这么久，终于看到有价值的讨论，支持一下！

美泰-杨昆 · 发表于 2026-05-05 07:43:40

刚好遇到类似问题，看完这个帖子心里有底了

kisto · 发表于 2026-05-12 13:33:15

楼主辛苦了，整理这么多内容，必须点赞收藏

糖醋辣梅/xin · 发表于 2026-06-06 17:11:01

完全赞同，我也是这么认为的，英雄所见略同～

木木夕的2012 · 发表于 2026-06-08 14:41:11

这个思路很新颖，打开了新世界的大门，谢谢分享

		自动登录	找回密码
密码			加入怎通

[站长八卦] 百度蜘蛛返回码的含义和建议

相关帖子

浏览过的版块