链接结构和爬虫爬行范围

第一滴血 发表于 2012-09-09 15:51:59

　　如果希望网站能够吸引新的访问者，在网站设计过程中，网站设计者们应考虑商业引擎网络爬虫的工作原理。关于商业引擎网络爬虫工作原理的具体细节，外人知道得很少，但可以从其一般工作原理中获得几点启示。

　　网络爬虫是沿着从网页文本中提取出来的链接爬行的，任何一个网站都应含有足够的链接，以便爬虫能够发现该站点所有的网页。更具体的讲，爬虫很可能从网站的首页开始爬行，因此，网站首页上的链接应能够指向该网站所有的网页。另外，这些链接必须包含在网页的HTML中，且是标准的HTML（如，使用锚点标签），因为爬虫可能识别不了其他格式的链接，包括JAVA或JavaScript格式。

　　许多网站从未被任何搜索引擎发现过，网站设计者们应该确保他们的网站能够让搜索引擎的“爬虫”发现。某些搜索引擎有URL提交功能，即允许设计者们将其网站的URL提交到爬行列表中，所有的主流搜索引擎都有这一功能；有些搜索引擎虽没有此功能，但如果已经被索引过的网站中有指向未被索引到的网站的链接，那么顺着链接，爬虫也能爬取该网站。因此，对于新网站而言，应该确保至少有一个已经被主流搜索引擎索引到的网站链接到该网站。http://www.ddd020.com/

云数据2013 发表于 2026-03-03 09:31:16

楼主辛苦了，整理这么多内容，必须点赞收藏

页: [1]

真牛社区's Archiver

链接结构和爬虫爬行范围