找回密码
 加入怎通
查看: 1814|回复: 1

[站长八卦] 搜索引擎优化:搜索引擎原理,搜索引擎对内容的处理

[复制链接]
奥弗学校 发表于 2020-07-05 19:34:23 | 显示全部楼层 |阅读模式
搜索引擎抓取内容之后会收录至数据库中,当用户进行检索搜索引擎会将收录的内容呈现给用户,为了快速的将内容呈现给用户,搜索引擎需要对已经抓取到的内容进行处理,只留下重点信息,这样能够在用户发起检索的时候快速的将所需内容呈现出来。. W; z) y% n5 e  A3 Y
pVnB6SBsOVp6ZSvn.jpg

# r" D: A' X$ `; P8 E: s/ Q" ~4 x5 j  x8 p; v1 @
那么搜索引擎对蜘蛛抓取回来的页面进行处理主要有4个步骤。, M% c% @9 R9 d# N# Y5 _, V
第一:判断该页面的页面类型4 q( H2 H2 I1 ^0 R2 K) J6 b" S2 \/ B
判断页面是正常的普通网页还是PDF等特殊文件文档。普通网页会区分是论坛、普通文章还是视频等内容,方便后期更快的呈献给用户
4 y- g9 q+ [# H, b第二:提取网页的文本信息
7 A# [7 _+ B7 o7 z9 K2 S# Q' Y2 V站长们都知道搜索引擎无法识别JavaScript、Flash、图片、视频等内容,虽然一直在努力的识别这些信息,但是更多的还是依靠提取网页TDK来进行识别,虽然keyword标签已经被主流搜索引擎抛弃,但是还是会有一定的参考借鉴的。+ V/ ]" I- K4 \' e
DElGrN0gq0f17Qq4.jpg

% T+ G  ~% b/ e4 F: ^* m, p1 h9 N  T
第三:去除页面噪音( ~7 _$ N0 ?7 N$ t7 `4 K9 T
前面有两三篇文章,提到页面信噪比的问题,信噪比就是页面主题内容与干扰信息的比例,搜索引擎会去掉与该页面无关的广告、导航、链接等各类信息,提取网页的主体内容。 相关搜搜的在一定程度上也会被算作本页的内容,所以更好的利用想过搜索不但可以提高页面质量,还可以增加与用户搜索的匹配程度。
* i5 Y+ H2 n% Z% s3 a
OzvwQ571d1z1W457.jpg

4 H5 @6 |% g& F7 c* w6 o5 S" T) @+ E6 C2 p6 o
# v/ X& ^! F6 h# J! C; l4 ~
第四:去除页面内容停止词
6 C" ?) C4 D3 s5 U2 }去除页面停止词其实是搜索引擎分词处理,今天主要讲停止词,也就是页面中“的”“啊”等词语,来减少搜索引擎的计算量。
回复

使用道具 举报

互易中国1003 发表于 2026-03-13 20:26:12 | 显示全部楼层
说得很实在,没有夸大其词,这种真实分享太难得了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-6-12 09:59 , Processed in 0.094896 second(s), 30 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表