几乎所有的搜索引擎spider都遵循robost.txt的爬行规则,协义规定搜索引擎spider进入某个网站的入口该就是这个网站的 rbobst.txt.当然,前提是存在此文件,对于没有设置robost.txt的网站,spider将会被重定向至404错误页面,相关资料表明,如 果网站采用了自定义的404错误页面,那么spider将会把视作robost.txt虽然并非是一个纯粹的文件,这将给spider索引网站带来很大的 困扰,影响搜索引擎对网站页面的收录。4 d- V* |& w* D3 Q
( i% {4 |7 W( M1 Q) t7 R2 L4 K( _# m对于内容丰富,存在很多页面的网站来说,配置robost.txt的意义更为重大,因为很多时候会遭到搜索引擎spider给予网站的巨大压力,洪水般的spider访问,如果不加控制,甚至会影响网站的正常访问。8 Q, F/ m2 d; \* z6 u+ c& G
* g0 L9 L* a+ G, P. F. b同样的,如果网站重复的内容太多。我们也可以使用robost.txt限制部分页面不被搜索引擎和收录,可以避免网站受到搜索引擎对于重复文件的惩罚,保证网站的排名不受影响。
. Z S- M$ \" d/ [& @; u* v- V
, e6 T1 C) ^) J- P0 S7 Y+ _robost.txt还可以制止不必要的搜索引擎占用服务器的宝贵带宽,如电子邮件,retrievers,这类搜索引擎对大多数网站是没有太大意义,但却耗用大量的带宽。
8 v8 W% s+ i8 O5 M G$ F; L+ E7 V' y, R: }; n
robost.txt还可以制止搜索引擎对非公开的页面的爬行与索引,如网站的后台程序,管理程序,事实上,对于某些在运行中产生临时的页面的网站来说,如果没有配置robost.txt搜索引擎就会索引那些文件。- Q1 Z) d. q& [. C9 [* ~; V& |$ t
淮安女子医院:www.0517hym.com
2 H$ Q0 R; y: |6 v. ~: O3 K$ s. [% P9 I5 e/ l
( h) r* T" B6 W, D8 g0 k" o! R |