找回密码
 加入怎通
查看: 349|回复: 0

[站长八卦] 解析:百度是从哪六点入手抓取我们的网页

[复制链接]
2355506875 发表于 2012-08-23 10:18:19 | 显示全部楼层 |阅读模式
7 x  a3 c+ y1 B; @8 {. P
  很多朋友都知道百度每次百度放出蜘蛛来抓网页的时候,都会进行运用多种策略来进行,这是因为现在全球网页充斥着太多的资料,包括有价值的内容以及垃圾文献等等,让蜘蛛疲惫不堪,为了让蜘蛛能“吃到”最好的,最实用的美味,百度通常会采用几种方案来执行:深度xp系统下载 http://www.ghost12.com/
: ]0 J7 [' N8 g) Y- {1 M% m  1. 关键词的提取,取一篇网页的源文件(例如通过浏览器的“查看源文件”功能),我们可以看到其中的情况纷乱繁杂。从认识和实践来看,所含的关键词即为这种特征最好的代表。于是,作为预处理阶段的一个基本任务,就是要提取出网页源文件的内容部分所含的关键词。对于中文来说,就是要根据一个词典Σ,用一个所谓“切词软件”,从网页文字中切出Σ所含的词语来。在那之后,一篇网页主要就由一组词来近似代表了,p = {t1, t2, …, tn}。一般来讲,我们可能得到很多词,同一个词可能在一篇网页中多次出现。从效果(effectiveness)和效率(efficiency)考虑,不应该让所有的词都出现在网页的表示中,要去掉诸如“的”,“在”等没有内容指示意义的词,称为“停用词”(stop word)。这样,对一篇网页来说,有效的词语数量大约在200个左右。
2 _! V3 N, ^2 U- B# Z* H  2.选择策略,这也是最重要也是最频繁实用的策略。只有优秀的资源才会获得蜘蛛的青睐,判断的标准通常是通过可以信赖的第三方来实现。这个可以信赖的第三方可以是那些国家单位,非盈利性组织,大学网站和目录网站。这也可以解释为什么做外链接都是想找学校类的或者百度权重比较高的网站的原因了。
  J6 O7 V5 i# }8 s. [  3. 重复或转载网页的消除,与生俱来的数字化和网络化给网页的复制以及转载和修改再发表带来了便利,因此我们看到Web上的信息存在大量的重复现象。这种现象对于广大的网民来说是有正面意义的,因为有了更多的信息访问机会。但对于搜索引擎来说,则主要是fu/mian的;它不仅在搜集网页时要消耗机器时间和网络带宽资源,而且如果在查询结果出现,无意义地消耗了计算机显示屏资源,也会引来用户的抱怨,“这么多重复的,给我一个就够了”。因此,消除内容重复或主题内容重复的网页是搜索引擎抓取网页阶段的一个重要任务。: r$ a  R% ?4 ?, ^  |
  4.重访策略,就是多久百度蜘蛛会再次光临你的网站,这就是百度快照的体现了。远程控制 http://www.gotomycloud.cn/ + _4 u# Y/ w  c3 x; G; a( P0 e1 M% [
  5.链接分析,大量的HTML标记既给网页的预处理造成了一些麻烦,也带来了一些新的机遇。从信息检索的角度讲,如果系统面对的仅仅是内容的文字,我们能依据的就是“共有词汇假设”(shared bag of words),即内容所包含的关键词集合,最多加上词频(term frequency 或tf、TF)和词在文档集合出现的文档频率(document frequency 或df、DF)之类的统计量。而TF和DF这样的频率信息能在一定程度上指示词语在一篇文档中的相对重要性或者和某些内容的相关性,这是有意义的。有了HTML标记后,情况还可能进一步改善,例如在同一篇文档中,
6 h7 r4 R6 `! W# v. t  6.不扰策略,就是蜘蛛能够很顺利的访问你的网站,如果在蜘蛛访问的时候,遇到服务器不稳定,网速过慢的情况,蜘蛛就会减少到访的次数了,如果多次连接不上,那你网站之前被收录的网页很可能会被删掉,所以选择一个优良的服务器也是优化的一个重要部分。ITSS http://www.itilxf.com/
9 f' b' I! B2 T5 Y  百度是用来为自己搜索需要的资料提供服务的,但是对于我们SEO的朋友来讲,更需要深层次了解百度是如何抓取我们的网页,目的就是为了更好的优化网站,提高网站的收录。
- q9 j! n% Y4 q( [
0 Z, V8 t8 h+ y  x1 c, q
回复

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-13 18:08 , Processed in 0.131660 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表