找回密码
 加入怎通
查看: 290|回复: 4

[站长八卦] 沃时贷告诉你蜘蛛爬网抓取4步骤

[复制链接]
老夫怒了 发表于 2015-01-30 10:08:54 | 显示全部楼层 |阅读模式
搜索引擎抓取网站有4个步骤:9 {! `% k! s$ d* Y
  一 抓取4 d+ Q  Q7 l) S6 H! d
  二 筛选- I( G6 a0 P( M
  三 建立索引 筛选后的页面存在数据库,建立索引 ,倒排索引。存取数据是以关键词为单位存取。
+ B* y7 m( a# s) s: l" K/ v  seo seo培训 先把排序结果排好,当用户搜索时,直接进行调用。建立索引过程就是排序的过程。/ y+ O5 ^( X5 i9 ?: Y. P
  当抓取页面,过滤机制判断,页面判断seo这个词比较高,就把它填充在seo列表里面,排在第11 。: K9 @6 \: F" ^9 Z$ p3 p( l
  四 输出结果% F, W5 ?7 y: C
  去了并不一定代表收录。去--过滤页面--建立索引) }+ H4 c3 M. V0 v. \" x+ j( j
  正常情况下,l发现的新连接都会去抓。什么情况下不去抓。
1 _3 w. @4 n6 i  4个非常重要的情况:
- X0 \& ]4 @3 v8 o  1 nofollow屏蔽的 会抓吗?搜索引擎是会去爬取页面,但是是不会建立快照,不建立索引,不会收录。但是有一种情况下是会收录的。, X) ?* _3 Q5 @
  robots有个特例,就是这个网站是用robots进行屏蔽的,但是在外部存在链接,也会建立收录。不是说你屏蔽了,就不收录。3 c! H- S: `7 ]
回复

使用道具 举报

呼啸 发表于 2026-01-06 12:58:12 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

xianseo8com 发表于 2026-01-07 06:19:21 | 显示全部楼层
分析得很透彻,很多细节都说到点子上了~
回复 支持 反对

使用道具 举报

htsj001 发表于 2026-01-12 02:54:05 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

回想 发表于 2026-01-13 20:37:08 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-17 07:27 , Processed in 0.432292 second(s), 23 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表