1、分析搜索引擎的抓取日志+ ^1 Y& R. T( \0 s2 V ~7 \
当我们的网页被收录之前,首先是需要搜索引擎来爬行、抓取的,当搜索引擎抓取到你的页面后,而且它觉得你的文章质量符合它的收录标准的时候,它就会把你的网页收录进它的索引库、然后经过处理给予你的网页相应的关键词的排名,而分析日志,可以清楚的知道我们哪些页面被抓取了,哪些页面没有被抓取,网站的每个目录的抓取情况,这样我们可以采取相应的措施来促进搜索引擎的收录。3 \1 L* ^) ?) n3 H0 J4 G0 k
2、在首页多展示未被抓取的网页的URL" O, m; @0 o' N2 z" ?. O
在上一步骤,我们已经把未抓取的URL列表提取出来了,然后我们可以把这些URL在首页展示,以增加被搜索引擎抓取的机会,许多网站至所以在首页有最新文章版块、随机展示版块,其实也大都是为了增加被搜索引擎抓取的机会从而增加网站页面的收录,首页的权重是一个网站中最高的URL页面,往往也是蜘蛛最活跃的页面,所以在首页展示往往可以增加收录。 - r( B( e# F# N6 _! r 3、利用robots.txt文件以及nofollow、noindex标签协助搜索引擎收录" s2 g- s9 y1 ^! ~8 o
读过搜索引擎原理书的人都知道,对于搜索引擎来说,它的资源是有限的,每天搜索引擎只能抓取互联网中网页的一部分,而在这抓取的网页中,收录也只是一部分,所以搜索引擎的资源很稀缺,在这种情况下,我们要把我们最重要页面的URL给尽量的展示给搜索引擎,而对于一些没有收录价值的页面,可以阻止其收录、或者阻止其跟踪,在这里robots文件与nofollow就派上用场了,例如一些没有收录意义的联系我们、企业招聘、登录、注册等这些链接,我们可以直接用nofollow阻止搜索引擎去跟踪,对于一些目录例如网站的模板目录、网站中一些动态URL,我们可以使用robots直接阻止搜索引擎收录,而且我们还可以把noindex属性加到页面的head部分阻止搜索引擎收录,当我们把这些所谓的无意义页页都阻止抓取以后,搜索蜘蛛就会在我们网站抓取更多有意义的页面,从而增加我们的有效收录。+ {4 W8 e B) i: L( n& q0 q! b/ i