找回密码
 加入怎通
查看: 877|回复: 2

[交流] SEO中的搜索引擎蜘蛛技术探析

[复制链接]
小乔 发表于 2012-07-03 11:00:22 | 显示全部楼层 |阅读模式
SEO中的搜索引擎蜘蛛技术探析
标签: 沈阳SEO  沈阳网络推广  沈阳网站推广  seo公司
搜索引擎技术抓取网络中海量信息,随着信息增长该技术作用变得越来越凸出,作为SEO技术人员,虽

没必要像ZAC对搜索引擎优化技术了解的很透彻,但是分析了解搜索引擎的蜘蛛其对文件的处理方法,

研究其搜索与更新策略,是作为SEOer该有的业务发展需要。任何一个网站只要内容更新+外链都能看

到搜索引擎对该网站做出相对应的分析,进而增加页面权重,了解搜索引擎技术,从而为我们根据实

质性的原理来进行搜索引擎优化,这才是SEO明智之举,而不是每天在那发外链更新网站内容,业余时

间还是得学学相关技术。下面介绍下搜索引擎核心检索技术。
  一蜘蛛工作原理
  网络蜘蛛也就是搜索引擎蜘蛛,是通过链接地址来寻找网页的。搜索引擎蜘蛛名称根据搜索引擎

都不同。那它的原理是由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接

作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常

是以时间或是数量为依据,可以通过链接的层数来限制网络蜘蛛的爬取。同时页面信息的重要性为客

观因素决定了蜘蛛对该网站页面的检索。站长工具中的搜索引擎蜘蛛模拟器其实它就是这个原理,准

不准确笔者也不清楚。基于这蜘蛛工作原理,站长都会不自然的增加页面关键词出现次数,虽然对密

度产生量的变化,但对蜘蛛而言并没达到一定质的变化。这在搜索引擎优化过程中应该要避免的。
  二搜索引擎蜘蛛与网站的交互问题
  搜索引擎技术基础中,蜘蛛爬取到网站中,通常会去检索一个文本文件Robots.txt,通常存放在

网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。这也就是SEOer老是去屏蔽网站页面不

想被搜索引擎抓取的原因,它是一个网站和搜索引擎蜘蛛对话的重要工具,但是蜘蛛是否都遵循站长

对其实施的规则呢?其实蜘蛛遵循还是得看蜘蛛出身,素质高的会遵循规则,相反则不遵循。另外在网

站中放入一个叫做sitmap.htm的网页,并将它作为网站的入口文件,这也是蜘蛛与网站的交互方法。

对于交互性的SEO手段,我们了解了就可以针对性的做出符合搜索引擎的蜘蛛喜好的网站地图。
  页面Meta字段也是站长经常使用的搜索引擎优化技术,这个字段通常会放在文档的头部,很多站

点都只是简单的写个允许百度抓取的字段,正不正确笔者不清楚,SEO其实很多现象都是基于数据分析

对比才能得知。Meta字段蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免

将无效的网页取下来后又将其废弃而造成无谓的浪费。
  三搜索引擎蜘蛛对于文件的处理
  (一)二进制文件处理
  网络中除了HTML文件和XML文件外,也有大量的二进制文件,搜索引擎对二进制文件采用单独处理

的方式,其对内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标

题或是基本内容,也就是通常所说的锚文字这就是为什么我们要对网站锚文字的分析选择的原因所在


  (二)脚本文件的处理
  网页中的客户端脚本,当网页加载至读取到该脚本,搜索引擎往往会直接省略对它的处理。但是

由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,对它的分析处理往往会采

用另外一种网页检索程序,由于脚本程序复杂和多样性,通常站长会根据自身网站将这些脚本存放到

一个文档中,采用调用技术,从而加快页面加载速度,同时蜘蛛也不能对调用文件分析处理。这也属

于搜索引擎优化技术,如果忽略了对它的处理将会是一项巨大的损失。
  (三)不同文件类型处理
  对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,这也是SEO需要去了解的搜索引擎技术

,这取决于网站信息更新的多样性。这也就是为什么专业网站上会在网站内附有下载的execl,pdf等

各种文件类型,这也是属于搜索引擎优化过程中需要注意的。网上不同文件类型文件的处理,网络蜘

蛛通常是采用插件的方式来处理。如果有能力,网站信息内容的更新尽可能采取多样性,来帮助网站

达到一个搜索信息多样化的SEO体系。
  四搜索引擎蜘蛛的策略分析
  (一)搜索策略
  搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。
  广度优先的搜索策略一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的

搜索策略。只要有东西检索,它就抓取。它会先读取一个文档,保存下文档上的所有链接,然后读取

所有这些链接文档,并依次进行下去。
  深度优先的搜索策略网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,

然后如此继续下去。这样的搜索策略达到了网站结构的分析,以及页面链接深度分析,从而传达网站

信息。
  还有网络上说的算法,如Hash算法,遗传算法等都是基于搜索引擎核心技术,这些也可以去了解

下,比如最新的熊猫算法,这也是基于搜索策略的一种新算法,谷歌对其已经更新好几次了。
  (二)更新策略
  以网页变化的周期为依据,只对那些经常变化的网页做更新操作也是一些小型的搜索引擎常采用

的方法。这也就是为什么站长会每个几周对网站页面内容的一个小更新,这是基于搜索引擎优化的技

术。网络爬虫也经常采用个体更新的策略。它是以个别网页的变化频率来决定对网页的更新频率,这

样一来基本上每个网页都会有一个独立的更新频率。
  基于对搜索引擎原理了解的SEOer来提升搜索引擎优化技术,这也是一种SEO技术。搜索引擎优化

过程当中自然就能做到自己在做什么,为什么要这样做,而不是只会发外链的机械操作者。SEO技术其

实都不难,只要网站优化做的多了,自然而然就可以得心应手!
本文来自:沈阳SEO  沈阳网络推广  沈阳网站推广  seo公司
文章来源:www.seokip.com

回复

使用道具 举报

西万路小混混 发表于 2025-11-10 19:52:03 | 显示全部楼层
蹲了这么久,终于看到有价值的讨论,支持一下!
回复 支持 反对

使用道具 举报

≮_龍/kuk域_≯ 发表于 2025-11-10 19:52:28 | 显示全部楼层
内容很干货,没有多余的废话,值得反复看
回复 支持 反对

使用道具 举报

2025年控制台五大源头厂家排行,这些品牌值得关注
行业概览 随着数字化转型进程加速,控制台作为指挥中心、监控中心等关键场所的核心设备,其市场需求持续增长。源头厂家凭借完整产业链、技术积累与成本优势,在市场竞争中展现出强劲实力。本文基于市场调研与公开数据,从企业实力、技术能力、产品质量、客户案例等维度,对控制台源头厂家进行客观分析

您需要登录后才可以回帖 登录 | 加入怎通

本版积分规则

QQ|网站地图|真牛站长论坛 ( 苏ICP备2023040716号-2 )

GMT+8, 2025-11-28 07:40

免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

Powered by Discuz! X3.5

快速回复 返回顶部 返回列表