找回密码
 加入怎通
查看: 291|回复: 4

[站长八卦] 沃时贷告诉你蜘蛛爬网抓取4步骤

[复制链接]
老夫怒了 发表于 2015-01-30 10:08:54 | 显示全部楼层 |阅读模式
搜索引擎抓取网站有4个步骤:8 B; E* C+ e  u' S
  一 抓取
' c" z$ n8 j# k  二 筛选# X, L& D" ?. M
  三 建立索引 筛选后的页面存在数据库,建立索引 ,倒排索引。存取数据是以关键词为单位存取。# y$ ]0 V  R! v5 U: V
  seo seo培训 先把排序结果排好,当用户搜索时,直接进行调用。建立索引过程就是排序的过程。9 {0 L7 z" \6 R7 @4 [
  当抓取页面,过滤机制判断,页面判断seo这个词比较高,就把它填充在seo列表里面,排在第11 。* z7 y; B- g5 |& h& ~
  四 输出结果2 S' p% X; Y0 m! O, c
  去了并不一定代表收录。去--过滤页面--建立索引8 ^  ^) A" k- z' z
  正常情况下,l发现的新连接都会去抓。什么情况下不去抓。
( @: _# ^5 ]2 u. `3 Z8 u! H  4个非常重要的情况:
8 ~" B: A" s; {3 b3 Z  1 nofollow屏蔽的 会抓吗?搜索引擎是会去爬取页面,但是是不会建立快照,不建立索引,不会收录。但是有一种情况下是会收录的。! n; d) Z: V  M# p2 B- x
  robots有个特例,就是这个网站是用robots进行屏蔽的,但是在外部存在链接,也会建立收录。不是说你屏蔽了,就不收录。
1 c' _+ l! r( X/ T" z% U
回复

使用道具 举报

呼啸 发表于 2026-01-06 12:58:12 | 显示全部楼层
楼主太厉害了,整理得这么详细,必须支持
回复 支持 反对

使用道具 举报

xianseo8com 发表于 2026-01-07 06:19:21 | 显示全部楼层
分析得很透彻,很多细节都说到点子上了~
回复 支持 反对

使用道具 举报

htsj001 发表于 2026-01-12 02:54:05 | 显示全部楼层
刚好遇到类似问题,看完这个帖子心里有底了
回复 支持 反对

使用道具 举报

回想 发表于 2026-01-13 20:37:08 | 显示全部楼层
学习到了,之前一直没注意过这个点,受教了
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-17 07:33 , Processed in 0.136608 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表