|
1 L8 _* @ {* { 一、前言在信息大爆炸时代,搜索引擎是获取精准信息的最主要途径,所以像公司官网这种承载了公司所有产品及服务信息的网站,确保被各大搜索引擎全面收录且搜索展示的排名尽可能靠前是一件非常重要的事情,因此就需要对网站进行一些必要的搜索引擎优化设置,也就是SEO优化。 2 S0 D3 M1 X$ H; r7 K
SEO优化是一个非常专业的领域,涵盖内容广泛,限于篇幅,本文仅对网站SEO优化的一般步骤进行阐述,权当抛砖引玉 0 j2 n6 A' I. L0 f
二、网站SEO优化一般步骤2.1 创建robots.txt文件robots.txt文件是网站与搜素引擎爬虫之间的协议,用简单直接的txt格式文本方式告诉搜素引擎爬虫被允许的权限,也就是说robots.txt是搜索引擎访问网站的时候要查看的第一个文件。
5 B& ^2 z' c2 F, N% c4 K- d2 {+ m 当一个搜素引擎爬虫访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;robots.txt文件必须位于根目录下robots.txt协议主要有三个关键字:
" c) I8 I, w- S9 s 1)User-agent - 设置允许搜索引擎的名称,如Googlebot,Baiduspider,sogou spider等等,通过名称可以很容易看出来它们各自对应的搜索引擎,通配符*表示允许所有搜索引擎; 4 _) a8 I8 m! x, J E1 G$ X! U
2)Disallow - 设置不希望被搜索引擎访问的URL,如/admin后台管理目录,根路径/表示全部不被索引;3)Allow - 设置希望被搜索引擎访问的URL,根路径/表示希望全部被索引;robots.txt一些常用的示例: 3 u8 D, |2 h1 T% z$ [; |
1)希望被所有搜索引擎搜索(注意冒号后面的空格!):User-agent: *Disallow:等同于:User-agent: *Allow: /2)禁止所有搜索引擎访问网站:User-agent: * 1 G. y2 A B7 w5 U
Disallow: /3)除了admin后台管理目录,允许所有搜索引擎访问所有文件:User-agent: *Disallow: /admin/4)禁止Google索引:User-agent: Googlebot
% ~3 m2 h0 ?; z* W" X" ^. e8 c Disallow: /5)仅允许百度索引,禁止其它所有搜索引擎(注意描述的顺序):User-agent: BaiduspiderDisallow:User-agent: *Disallow: /更复杂的设置,可以借助通配符进行精准限制,如限制某个搜索引擎不得访问JPG图片之类。
, B% w0 T# _8 O/ o8 U 2.2 在页面增加关键词然后就是通过meta标签向每个HTML页面加入索引关键词,每个关键词用逗号隔开,比如笔者公司网站所涉及的关键词多达十几个,为了省事,每个页面都添加一样的。
. A, K) l6 V+ w5 M6 a$ ?, S 除了关键词之外,还有一个网页描述,就是一句话描述该页面是介绍什么内容的2.3 向搜索引擎提交链接搜索引擎访问每个站点是有一定的周期的,所以如果网站内容发生了比较大的变更,搜索引擎那边是不会立即进行同步的,如果希望尽快保持同步,就需要手动向搜索引擎提交链接;。
/ b' L% m$ ]3 s6 S 上面对网站的索引规则进行了变动后,也可以通过这种方式主动请求搜索引擎进行同步,如主动向百度提交链接:
" {) ~, G' H1 }- G* P4 z 顺便可以检查一下前面添加的robots.txt是否正确并生效:
6 y; @) x6 ^: [2 @- _9 I$ D: R( {" ^' m- E- `# Y$ ?
9 o7 u, a' ~8 _+ N) a
7 H7 p+ d. @5 z4 e) `" l4 N4 j$ w5 K
* @' d3 R* N# Y8 @0 Q7 |# ]( ^ |