做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢? 红涛前面推荐了一款工具:网站日志分析工具
. z! [0 s& r c3 Y+ R$ o网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图: C3 w# z m2 ~5 `" N
* G* R% S7 R* l' {9 m! ]! f5 P8 q
/ m5 k3 m1 i5 S7 g, n8 M2 ?既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:
' l0 R7 \0 `! h#Software: Microsoft Internet Information Services 6.06 _1 k, }: r% S
#Version: 1.0
/ [! o8 c5 u9 p#Date: 2011-03-01 00:00:17
% x( ? {+ q, v6 r#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
$ j1 E: h- v* ~! X6 B) P$ w* v: t2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 298
M2 R. ^- i2 K% o. N搜索引擎蜘蛛:
# P2 Q) J) S2 N8 O2 d百度:baiduspider Google:Googlebot Msn:msnbot/ N9 p, \& q( s
yahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider
; t2 ?+ O% _+ j# e搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。( m0 b4 ^9 h6 `. _' H+ e1 L1 Q
date表示记录访问日期;4 c) c9 H7 B# G0 b9 `5 C
time访问时间;$ p( `- o) X, [! z, ^7 L: k$ t9 V
s-sitename表示你的虚拟主机的代称。
4 g4 u1 S3 T9 L6 n# @& C; ?* [4 E7 R8 Ps-ip访问者IP;8 L+ P+ _8 M8 j& p
cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;
* ^$ `; V+ V8 }cs-uri-stem就是访问哪一个文件;
4 x! ?; d8 M; D& `4 h: Xcs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;$ U$ i3 h. N2 Z
s-port 访问的端口
, R2 G c; z0 J$ rcs-username 访问者名称$ }8 Q. E+ H% F/ m2 a% D# ?
c-ip 来源ip
q* O/ y* z+ V9 F7 I. Ecs(User-Agent)访问来源;
8 f% \& Y0 O' Q3 h9 E! Xsc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;: K( n1 O/ g& o4 ?3 J8 J( O
sc-substatus 服务端传送到客户端的字节大小;
W6 x0 B# _' X2 y) N, `' }cs–win32-statu客户端传送到服务端的字节大小;
6 f5 N: I7 Y5 } M8 [1**:请求收到,继续处理# Z, h. j9 V0 o$ P `
2**:操作成功收到,分析、接受! @& A) ?4 O! e5 u$ W, v+ {
3**:完成此请求必须进一步处理' w4 z& `* w( S' F* Y
4**:请求包含一个错误语法或不能完成
P% l5 P1 k; b: K6 p7 |* L+ }5**:服务器执行一个完全有效请求失败& @) ]3 G4 B/ ?$ W/ R
100——客户必须继续发出请求
7 }6 N- Y: o' x* \$ @2 t" [* w101——客户要求服务器根据请求转换HTTP协议版本1 U$ b( z: n; M. P4 u; N
200——交易成功
" T; Z# Y7 \$ i2 l' I201——提示知道新文件的URL( p$ W( S5 V" Z$ v1 U5 p! _
202——接受和处理、但处理未完成
% ?7 p3 d1 }* p d- g- b6 U) @! u6 g203——返回信息不确定或不完整
. M$ o( ]0 E2 w) {1 F8 Q3 t204——请求收到,但返回信息为空) t% E3 r, r2 z3 x% _
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件2 y$ p8 v. J: w P E2 k$ L; B
206——服务器已经完成了部分用户的GET请求
4 Z/ b& ]3 v9 G' L4 c7 P300——请求的资源可在多处得到 J/ D5 Q! M' }& M0 _
301——删除请求数据8 {, g8 z5 ]9 S8 O+ J* R$ F' y
302——在其他地址发现了请求数据2 t' D& Y' j& n2 c" ?; C
303——建议客户访问其他URL或访问方式& y" ^( m6 U7 G' U' h' p
304——客户端已经执行了GET,但文件未变化5 V# j& S! M8 l N
305——请求的资源必须从服务器指定的地址得到+ b: s! A. w4 x6 D
306——前一版本HTTP中使用的代码,现行版本中不再使用- [! e; s: p6 E$ j
307——申明请求的资源临时性删除5 H- {" Y# {, n) D! X, E
400——错误请求,如语法错误
; S8 f( r1 ^3 v7 c% p401——请求授权失败
) A: r9 a" Z S5 t1 \( j402——保留有效ChargeTo头响应
, I! c$ W( M4 j( Q e403——请求不允许
9 @ ?6 ?3 H% T7 h: l404——没有发现文件、查询或URl: Y, G6 S' W/ J8 _' L
405——用户在Request-Line字段定义的方法不允许" F7 K- z- S# Z5 j
406——根据用户发送的Accept拖,请求资源不可访问- K6 G/ p- e$ O& v1 E: s$ y; X
407——类似401,用户必须首先在代理服务器上得到授权0 a, \, `# }! H4 x, o0 R7 l' B- N
408——客户端没有在用户指定的饿时间内完成请求
' s( Z7 m. W2 }0 C& S409——对当前资源状态,请求不能完成& S* M. k1 V9 C8 O6 H% o \; H
410——服务器上不再有此资源且无进一步的参考地址
4 ~5 n- B" g) t) W" O411——服务器拒绝用户定义的Content-Length属性请求
8 U5 P+ \) L& S412——一个或多个请求头字段在当前请求中错误" e- @1 O \$ X3 Q- y6 U9 U+ X
413——请求的资源大于服务器允许的大小
( M2 ]! q; A; s414——请求的资源URL长于服务器允许的长度* s( q: c5 h' b4 s5 @! H& o
415——请求资源不支持请求项目格式
2 g1 ]% b5 k7 S416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段. i+ @- a# m" S9 E- e0 P
417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求
8 G! I' a H6 h( e500——服务器产生内部错误3 J$ q8 V9 z8 J6 |
501——服务器不支持请求的函数+ i7 W) `! V' P7 W6 c
502——服务器暂时不可用,有时是为了防止发生系统过载
0 ?. R' W5 n2 m S/ ^) E8 G503——服务器过载或暂停维修
9 v2 r3 e7 E1 T504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长
1 n& X; w ]5 V' q( ]/ B9 O505——服务器不支持或拒绝支请求头中指定的HTTP版本
' u4 R1 t. b3 d I/ @( t' `( w1 Y6 N我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录 做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢? 红涛前面推荐了一款工具:网站日志分析工具$ n3 Q) K& \' d9 f; Y5 H
网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图:/ d2 ^: j: W9 [" E1 w" ?+ U% c
6 z0 z& ?- k- @* e; u5 D
* ~ P# K5 B" B$ C1 U既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:
/ J3 a$ [& s" ?- G* y! ]6 Z1 Q#Software: Microsoft Internet Information Services 6.00 C, b; M; g; S1 d
#Version: 1.0; R2 D' ]5 N8 S" n0 m
#Date: 2011-03-01 00:00:173 _0 I& Z5 R7 s: A+ `
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
! M; w- N8 y1 L; j0 x: O! V$ W' T! }2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 298# L8 @9 _+ |, _& f7 {7 ^' r2 ]
搜索引擎蜘蛛:( |! q" e( W( `3 k( i
百度:baiduspider Google:Googlebot Msn:msnbot
3 ?* M& u5 U6 @8 z7 k' Oyahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider# Y, d5 f" u9 e" ]
搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。
- d9 V1 b3 L" E" zdate表示记录访问日期;
0 q9 l& v% q9 `: t0 W T# ytime访问时间;+ L. d0 V+ l" ` \- a
s-sitename表示你的虚拟主机的代称。
5 e, K/ O/ n$ e' Cs-ip访问者IP;
, J( Q/ M% L' lcs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;& |5 r6 F# f( e% |5 {
cs-uri-stem就是访问哪一个文件;
9 z4 ^& F5 A5 C2 Scs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;- Q9 H2 b0 D6 }+ p
s-port 访问的端口4 p2 `9 I2 q( {) {4 h
cs-username 访问者名称- c0 E0 E. b K1 d, }& n
c-ip 来源ip
" x7 r. P& a& @1 ecs(User-Agent)访问来源;
$ O& p( v$ b& j! ~. |# Usc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
3 d; [7 ^* l$ ` o" X5 A; H3 osc-substatus 服务端传送到客户端的字节大小;
; t1 T( T, g+ b! ~/ }) ecs–win32-statu客户端传送到服务端的字节大小;
# C6 p/ q, }3 r7 C% F1**:请求收到,继续处理. a- u8 u N# o& e
2**:操作成功收到,分析、接受
6 k# z) ^0 B$ ~+ e& ^, T! j# d1 u- D3**:完成此请求必须进一步处理7 B3 X- L5 H" `# b. P# j |$ s
4**:请求包含一个错误语法或不能完成 e. N5 k* l i2 p
5**:服务器执行一个完全有效请求失败6 r2 D# V2 I/ X0 N5 ^
100——客户必须继续发出请求# S5 K0 `; a% j! a; }$ ?
101——客户要求服务器根据请求转换HTTP协议版本2 ? `% R9 ] q0 i+ T
200——交易成功! c3 @: H, F, J- P6 o" K
201——提示知道新文件的URL
) ]" z k9 a! z; [# M202——接受和处理、但处理未完成
$ [- e4 h+ N; }9 a203——返回信息不确定或不完整
+ O4 Y! d, @9 {3 I! c* \0 P204——请求收到,但返回信息为空 o8 `& L5 }+ F& h q0 e
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件
6 @! \2 j: W8 ?0 R" f! I' |: `0 a206——服务器已经完成了部分用户的GET请求$ b7 V2 x4 L( y' P/ Y/ ?
300——请求的资源可在多处得到
9 g' \3 f5 O9 R. l. U r301——删除请求数据
( h/ c4 r/ `2 G7 V) V' o7 l302——在其他地址发现了请求数据
8 ~ G6 k3 X) s303——建议客户访问其他URL或访问方式
H& ]& Q. {) F9 B6 k304——客户端已经执行了GET,但文件未变化, x5 @1 J3 F( B- G
305——请求的资源必须从服务器指定的地址得到7 U6 G% l" t1 F: T, y
306——前一版本HTTP中使用的代码,现行版本中不再使用
! N4 l, P; W( E307——申明请求的资源临时性删除
1 \" u/ T& n C400——错误请求,如语法错误
) B4 m6 Y8 d% a+ d401——请求授权失败
7 M; w a/ v, ^4 k, ]4 e8 F: l402——保留有效ChargeTo头响应5 s; }0 D5 ^4 B
403——请求不允许' f3 a- t8 B9 W+ b, ^, E
404——没有发现文件、查询或URl
) ~1 `1 T9 O5 O8 M) n405——用户在Request-Line字段定义的方法不允许. t6 e4 r# H z$ T
406——根据用户发送的Accept拖,请求资源不可访问
7 h& d; M3 f' I407——类似401,用户必须首先在代理服务器上得到授权8 [2 l+ t S" R+ P
408——客户端没有在用户指定的饿时间内完成请求- q C: a' i5 d
409——对当前资源状态,请求不能完成
7 g$ f; D/ A1 i410——服务器上不再有此资源且无进一步的参考地址
- J( i- }+ s, {6 a2 d1 K411——服务器拒绝用户定义的Content-Length属性请求/ H# h P0 n" D1 B& q
412——一个或多个请求头字段在当前请求中错误4 S" l: k' B5 w# j; p. a
413——请求的资源大于服务器允许的大小1 {1 q; A6 l; E. T: o& p3 I$ c1 `
414——请求的资源URL长于服务器允许的长度$ H; y7 k0 o& f- I: a
415——请求资源不支持请求项目格式5 V+ u( }2 _5 H: S
416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段4 n& q% }( x3 W3 \6 A
417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求1 X' g5 D3 V; _9 d9 {9 ~
500——服务器产生内部错误
- ^' R: c4 P3 ]# L501——服务器不支持请求的函数- ~( c9 E5 o' F D3 \
502——服务器暂时不可用,有时是为了防止发生系统过载 e/ `1 @+ A9 f: m0 ]! {3 y
503——服务器过载或暂停维修1 h. p8 d0 p% X* A. j0 |
504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长+ H7 P6 R; Z: G. n9 e
505——服务器不支持或拒绝支请求头中指定的HTTP版本
# Y4 u+ x0 e- L我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去site:www.hongtaoseo.com ,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录
( `- `$ }$ ?( l- ~0 g, e" ` I分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。本文由www.hspayy.com论坛发布,转载请注明出处!
' H4 R- {+ d( f3 O: y* k: X& y
7 V' F! z% U+ x) g& [9 r分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。. z6 d8 C7 q+ ^
/ K* {! m' `4 q3 V( l+ v$ @
, }5 C! A" N* _! J
|