找回密码
 加入怎通
查看: 743|回复: 4

[站长八卦] 百度搜索引擎基础知识

[复制链接]
我也是站长 发表于 2013-02-04 14:21:41 | 显示全部楼层 |阅读模式
  一、抓取
3 c7 A: X7 ]+ b$ J  t& r# k
5 ^2 [6 H# v( Y* p3 T  Baiduspider,或称百度蜘蛛,会通过搜索引擎体系的计算,来决议对于哪些网站实施抓取,和抓取的内容以及频率值。搜索引擎的计算历程会参考你的网站正在历史中的表示,譬如内容是否充足优良,是否存在对于用户不友好的设置,是否存在过分的搜索引擎优化行动等等。
* O  f6 T' u* K; m7 U' q/ n7 D4 ^
7 T  s6 W& U9 L. _1 |  当你的网站产生新内容时,Baiduspider会通过互联网外某个指向该页面的链接进行走访以及抓取,要是你不设置任何内部链接指向网站中的新增内容,则Baiduspider是没法对于其进行抓取的。关于已经被抓取过的内容,搜索引擎会对于抓取的页面进行纪录,并根据这些页面对于用户的主要水平安顿不同频次的抓取更新任务。0 [8 |& k$ Z/ p" b( B
( Y' l1 ?5 {4 x$ C
  需您要留神的是,有一些抓取软件,为了种种目标,会假装成Baiduspider对于你的网站进行抓取,那大概是不受把持的抓取行动,紧张时会影响到网站的一般运作。面此辨认Baiduspider的真伪。6 t! h" z8 F: X
; o; w  ^2 S! V& W  D) {
  两、过滤
0 }7 t( p& L! i- `$ ~* h. n) I* N2 A* {! {3 X9 v: _) N0 e/ e1 u; G
  互联网外并非所有的网页皆对于用户有意义,譬如一些分明的欺骗用户的网页,生链接,空缺内容页面等。这些网页对于用户、站长以及百度来说,皆不充足的价值,因而百度会主动对于这些内容进行过滤,以避免为用户以及你的网站带来不必要的贫苦。
0 U# f* l4 K  X. J7 F* ^" c3 x5 E* r! O& @9 w) t+ x
  三、确立索引
8 s7 k, I- o" \  f' Y7 x) P, k* h! v! |$ d/ s
  百度对于抓取回来的内容会一一进行标志以及辨认,并将这些标志进行贮存为构造化的数据,譬如网页的tagtitle、metadescripiton、网页中链及描写、抓取纪录。同时,也会将网页中的关键词信息进行辨认以及贮存,以便与用户搜寻的内容进行匹配。. W2 g. c8 T. q$ K; T) u
, S: P/ O" G0 v0 w7 r( {3 P+ w
  四、输入后果2 N# d! m  s# y& i1 T9 j

7 u/ ?2 m4 l' K- R* W  用户输出的关键词,百度会对于其进行一系列庞杂的剖析,并依据剖析的论断正在索引库外寻觅与之最为匹配的一系列网页,依照用户输出的关键词所体现的需求强弱以及网页的优劣进行打分,并依照最终的分数进行排列,展示给用户。, @  h1 [5 }: w  T/ S1 R
回复

使用道具 举报

新浪9158 发表于 2013-02-04 16:24:28 | 显示全部楼层
百度搜索引擎基础知识
回复 支持 反对

使用道具 举报

qwertyuiop 发表于 2025-11-10 20:29:22 | 显示全部楼层
楼主辛苦了,整理这么多内容,必须点赞收藏
回复 支持 反对

使用道具 举报

bhccn 发表于 2025-11-10 20:29:42 | 显示全部楼层
分析得很透彻,很多细节都说到点子上了~
回复 支持 反对

使用道具 举报

一批一批 发表于 2026-03-13 17:13:27 | 显示全部楼层
蹲了这么久,终于看到有价值的讨论,支持一下!
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-28 03:33 , Processed in 0.330088 second(s), 25 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表