搜索引擎优化:搜索引擎原理,搜索引擎对内容的处理

奥弗学校 · 发表于 2020-07-05 19:34:23

搜索引擎抓取内容之后会收录至数据库中，当用户进行检索搜索引擎会将收录的内容呈现给用户，为了快速的将内容呈现给用户，搜索引擎需要对已经抓取到的内容进行处理，只留下重点信息，这样能够在用户发起检索的时候快速的将所需内容呈现出来。

那么搜索引擎对蜘蛛抓取回来的页面进行处理主要有4个步骤。
第一：判断该页面的页面类型
判断页面是正常的普通网页还是PDF等特殊文件文档。普通网页会区分是论坛、普通文章还是视频等内容，方便后期更快的呈献给用户
第二：提取网页的文本信息
站长们都知道搜索引擎无法识别JavaScript、Flash、图片、视频等内容，虽然一直在努力的识别这些信息，但是更多的还是依靠提取网页TDK来进行识别，虽然keyword标签已经被主流搜索引擎抛弃，但是还是会有一定的参考借鉴的。

第三：去除页面噪音
前面有两三篇文章，提到页面信噪比的问题，信噪比就是页面主题内容与干扰信息的比例，搜索引擎会去掉与该页面无关的广告、导航、链接等各类信息，提取网页的主体内容。相关搜搜的在一定程度上也会被算作本页的内容，所以更好的利用想过搜索不但可以提高页面质量，还可以增加与用户搜索的匹配程度。

第四：去除页面内容停止词
去除页面停止词其实是搜索引擎分词处理，今天主要讲停止词，也就是页面中“的”“啊”等词语，来减少搜索引擎的计算量。

互易中国1003 · 发表于 2026-03-13 20:26:12

说得很实在，没有夸大其词，这种真实分享太难得了

		自动登录	找回密码
密码			加入怎通

[站长八卦] 搜索引擎优化:搜索引擎原理,搜索引擎对内容的处理

相关帖子

浏览过的版块