找回密码
 加入怎通
查看: 385|回复: 5

[站长八卦] 蜘蛛是如何爬行网站的

[复制链接]
天使在飞 发表于 2012-09-11 10:51:18 | 显示全部楼层 |阅读模式
各位SEOer同胞们可能都比较了解SEO优化的手段了,但有多少人知其然并且知其所以然呢?既然是做SEO工作的,我们就应该了解搜索引擎的工作原理,今天就来谈谈搜索引擎蜘蛛是如何爬行网站的
) @9 b; W: i% Y3 s  p) [( P! n9 z一、爬行和抓取
9 n" X, q% H0 W3 `/ f3 r1 c' C" c4 ?0 p搜索引擎派出一个能够在网上发现新网页并抓取文件的程序,这个程序通常被称为蜘蛛(spider)或机器人(robot)。搜索引擎蜘蛛从数据库中已知的网页开始出发,就像正常用户的浏览器一样访问这些网页并抓取文件。 并且搜索引擎蜘蛛会跟踪网页上的链接,访问更多网页,这个过程就叫爬行(crawl)。当通过链接发现有新的网址时,蜘蛛将把新网址记录入数据库等待抓取。跟踪网页链接是搜索引擎蜘蛛发现新网址的最基本方法,所以反向链接成为搜索引擎优化的最基本因素之一。没有反向链接,搜索引擎连页面都发现不了,就更谈不上排名了。 搜索引擎蜘蛛抓取的页面文件与用户浏览器得到的完全一样,抓取的文件存入数据库。
  @) \4 [: Q9 Y二、索引& C9 C5 N, R- P- e; e' h
搜索引擎索引程序把蜘蛛抓取的网页文件分解、分析,并以巨大表格的形式存入数据库,这个过程就是索引(index)。在索引数据库中,网页文字内容,关键词出现的位置、字体、颜色、加粗、斜体等相关信息都有相应记录。 搜索引擎索引数据库存储巨量数据,主流搜索引擎通常都存有几十亿级别的网页。7 y; [! }; v5 X: N! q7 Q
三、搜索词处理9 j# `0 n4 I; [% V0 O0 q
用户在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对输入的搜索词进行处理,如中文特有的分词处理,对关键词词序的分别,去除停止词,判断是否需要启动整合搜索,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。
: I# n, M& e' d% W& f; O四、排序
1 X) e4 o" c" K" X# k2 z% {对搜索词进行处理后,搜索引擎排序程序开始工作,从索引数据库中找出所有包含搜索词的网页,并且根据排名算法计算出哪些网页应该排在前面,然后按一定格式返回“搜索”页面。 排序过程虽然在一两秒钟之内就完成并返回用户所要的搜索结果,实际上这是一个非常复杂的过程。排名算法需要实时从索引数据库中找出所有相关页面,实时计算相关性,加入过滤算法,其复杂程度是外人无法想象的。搜索引擎是当今规模最大、最复杂的计算系统之一。$ P- q. D* Z9 l7 N
以上就是搜索引擎的工作原理,从蜘蛛的爬行到最后的排名,还是挺有意思的。我们应该多了解搜索引擎,从中找出讨好搜索引擎的办法,让蜘蛛喜欢上我们的网站。
0 O: A! E8 k9 c' e9 \* b5 p! Z新疆旅行社  http://www.iyouxj.com/
# J0 c% @; Z6 s; b) l
& A5 N, S( M" G# U* Q5 Y; x: ^3 N& H
$ l2 Y. I1 p. r; q! w4 m4 f
回复

使用道具 举报

头像被屏蔽
baty1007 发表于 2012-09-11 10:51:46 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
baty1007 发表于 2012-09-11 10:52:40 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

上品喜婚礼· 发表于 2026-01-10 20:21:30 | 显示全部楼层
蹲了这么久,终于看到有价值的讨论,支持一下!
回复 支持 反对

使用道具 举报

头像被屏蔽
柔水薄情 发表于 2026-01-12 15:44:05 | 显示全部楼层
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

wang_wei 发表于 2026-03-15 03:27:20 | 显示全部楼层
这个分享太实用了,刚好能用到,感谢楼主!
回复 支持 反对

使用道具 举报

2026年3月18日真牛社区(fd.znbgj.com)签到记录贴
我今天最想说:「www.ynhb99.com 雄起」.

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-18 18:58 , Processed in 0.126930 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表