找回密码
 加入怎通
查看: 431|回复: 1

[站长八卦] 链接结构和爬虫爬行范围

[复制链接]
第一滴血 发表于 2012-09-09 15:51:59 | 显示全部楼层 |阅读模式
  如果希望网站能够吸引新的访问者,在网站设计过程中,网站设计者们应考虑商业引擎网络爬虫的工作原理。关于商业引擎网络爬虫工作原理的具体细节,外人知道得很少,但可以从其一般工作原理中获得几点启示。
5 t6 P, I) p# P: D' `
4 q# B3 ]; O0 N. s2 d: F( {  网络爬虫是沿着从网页文本中提取出来的链接爬行的,任何一个网站都应含有足够的链接,以便爬虫能够发现该站点所有的网页。更具体的讲,爬虫很可能从网站的首页开始爬行,因此,网站首页上的链接应能够指向该网站所有的网页。另外,这些链接必须包含在网页的HTML中,且是标准的HTML(如,使用锚点标签),因为爬虫可能识别不了其他格式的链接,包括JAVA或JavaScript格式。$ P: [- x( o7 L% u# U% `) n
4 [; Y) ~3 M$ w7 ^* q
  许多网站从未被任何搜索引擎发现过,网站设计者们应该确保他们的网站能够让搜索引擎的“爬虫”发现。某些搜索引擎有URL提交功能,即允许设计者们将其网站的URL提交到爬行列表中,所有的主流搜索引擎都有这一功能;有些搜索引擎虽没有此功能,但如果已经被索引过的网站中有指向未被索引到的网站的链接,那么顺着链接,爬虫也能爬取该网站。因此,对于新网站而言,应该确保至少有一个已经被主流搜索引擎索引到的网站链接到该网站。http://www.ddd020.com/1 [' B+ }; z5 {" @$ B" M1 A/ n% u
回复

使用道具 举报

云数据2013 发表于 2026-03-03 09:31:16 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

2026年3月23日真牛社区(fd.znbgj.com)签到记录贴
我今天最想说:「www.hzzdsw.com 加油」.

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-23 21:17 , Processed in 0.288893 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表