SEO中的搜索引擎蜘蛛技术探析
SEO中的搜索引擎蜘蛛技术探析标签: 沈阳SEO沈阳网络推广沈阳网站推广seo公司
搜索引擎技术抓取网络中海量信息,随着信息增长该技术作用变得越来越凸出,作为SEO技术人员,虽
没必要像ZAC对搜索引擎优化技术了解的很透彻,但是分析了解搜索引擎的蜘蛛其对文件的处理方法,
研究其搜索与更新策略,是作为SEOer该有的业务发展需要。任何一个网站只要内容更新+外链都能看
到搜索引擎对该网站做出相对应的分析,进而增加页面权重,了解搜索引擎技术,从而为我们根据实
质性的原理来进行搜索引擎优化,这才是SEO明智之举,而不是每天在那发外链更新网站内容,业余时
间还是得学学相关技术。下面介绍下搜索引擎核心检索技术。
一蜘蛛工作原理
网络蜘蛛也就是搜索引擎蜘蛛,是通过链接地址来寻找网页的。搜索引擎蜘蛛名称根据搜索引擎
都不同。那它的原理是由一个启始链接开始抓取网页内容,同时也采集网页上的链接,并将这些链接
作为它下一步抓取的链接地址,如此循环,直到达到某个停止条件后才会停止。停止条件的设定通常
是以时间或是数量为依据,可以通过链接的层数来限制网络蜘蛛的爬取。同时页面信息的重要性为客
观因素决定了蜘蛛对该网站页面的检索。站长工具中的搜索引擎蜘蛛模拟器其实它就是这个原理,准
不准确笔者也不清楚。基于这蜘蛛工作原理,站长都会不自然的增加页面关键词出现次数,虽然对密
度产生量的变化,但对蜘蛛而言并没达到一定质的变化。这在搜索引擎优化过程中应该要避免的。
二搜索引擎蜘蛛与网站的交互问题
搜索引擎技术基础中,蜘蛛爬取到网站中,通常会去检索一个文本文件Robots.txt,通常存放在
网站的根目录下。它是专门用来同网络蜘蛛交互用的专用文件。这也就是SEOer老是去屏蔽网站页面不
想被搜索引擎抓取的原因,它是一个网站和搜索引擎蜘蛛对话的重要工具,但是蜘蛛是否都遵循站长
对其实施的规则呢?其实蜘蛛遵循还是得看蜘蛛出身,素质高的会遵循规则,相反则不遵循。另外在网
站中放入一个叫做sitmap.htm的网页,并将它作为网站的入口文件,这也是蜘蛛与网站的交互方法。
对于交互性的SEO手段,我们了解了就可以针对性的做出符合搜索引擎的蜘蛛喜好的网站地图。
页面Meta字段也是站长经常使用的搜索引擎优化技术,这个字段通常会放在文档的头部,很多站
点都只是简单的写个允许百度抓取的字段,正不正确笔者不清楚,SEO其实很多现象都是基于数据分析
对比才能得知。Meta字段蜘蛛可以在没有读取到全部文档的情况下就了解文档的相关信息,可以避免
将无效的网页取下来后又将其废弃而造成无谓的浪费。
三搜索引擎蜘蛛对于文件的处理
(一)二进制文件处理
网络中除了HTML文件和XML文件外,也有大量的二进制文件,搜索引擎对二进制文件采用单独处理
的方式,其对内容的理解完全需要依靠二进制文件的锚点描述来完成。锚点描述通常代表了文件的标
题或是基本内容,也就是通常所说的锚文字这就是为什么我们要对网站锚文字的分析选择的原因所在
。
(二)脚本文件的处理
网页中的客户端脚本,当网页加载至读取到该脚本,搜索引擎往往会直接省略对它的处理。但是
由于现在网站设计者对于无刷新页面要求的提高和对ajax技术的大量使用,对它的分析处理往往会采
用另外一种网页检索程序,由于脚本程序复杂和多样性,通常站长会根据自身网站将这些脚本存放到
一个文档中,采用调用技术,从而加快页面加载速度,同时蜘蛛也不能对调用文件分析处理。这也属
于搜索引擎优化技术,如果忽略了对它的处理将会是一项巨大的损失。
(三)不同文件类型处理
对于网页内容的提取分析一直是网络蜘蛛的重要技术环节,这也是SEO需要去了解的搜索引擎技术
,这取决于网站信息更新的多样性。这也就是为什么专业网站上会在网站内附有下载的execl,pdf等
各种文件类型,这也是属于搜索引擎优化过程中需要注意的。网上不同文件类型文件的处理,网络蜘
蛛通常是采用插件的方式来处理。如果有能力,网站信息内容的更新尽可能采取多样性,来帮助网站
达到一个搜索信息多样化的SEO体系。
四搜索引擎蜘蛛的策略分析
(一)搜索策略
搜索策略一般有深度优先的搜索策略和广度优先的搜索策略两种。
广度优先的搜索策略一般被认为是盲目的搜索。它是一种以搜索更多的网页为优先的一种贪婪的
搜索策略。只要有东西检索,它就抓取。它会先读取一个文档,保存下文档上的所有链接,然后读取
所有这些链接文档,并依次进行下去。
深度优先的搜索策略网络蜘蛛程序分析一个文档,并取出它的第一个链接所指的文档继续分析,
然后如此继续下去。这样的搜索策略达到了网站结构的分析,以及页面链接深度分析,从而传达网站
信息。
还有网络上说的算法,如Hash算法,遗传算法等都是基于搜索引擎核心技术,这些也可以去了解
下,比如最新的熊猫算法,这也是基于搜索策略的一种新算法,谷歌对其已经更新好几次了。
(二)更新策略
以网页变化的周期为依据,只对那些经常变化的网页做更新操作也是一些小型的搜索引擎常采用
的方法。这也就是为什么站长会每个几周对网站页面内容的一个小更新,这是基于搜索引擎优化的技
术。网络爬虫也经常采用个体更新的策略。它是以个别网页的变化频率来决定对网页的更新频率,这
样一来基本上每个网页都会有一个独立的更新频率。
基于对搜索引擎原理了解的SEOer来提升搜索引擎优化技术,这也是一种SEO技术。搜索引擎优化
过程当中自然就能做到自己在做什么,为什么要这样做,而不是只会发外链的机械操作者。SEO技术其
实都不难,只要网站优化做的多了,自然而然就可以得心应手!
本文来自:沈阳SEO沈阳网络推广沈阳网站推广seo公司
文章来源:www.seokip.com
蹲了这么久,终于看到有价值的讨论,支持一下! 内容很干货,没有多余的废话,值得反复看
页:
[1]