做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢? 红涛前面推荐了一款工具:网站日志分析工具
, C/ z( i1 H4 {网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图:: z2 m7 Q( p4 I, G" p
7 y' j+ t' `( R, ~
( V! B9 i1 p( C既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:
R$ v8 R8 Y6 Z! A. e#Software: Microsoft Internet Information Services 6.0
2 N; h( K$ U N t& L6 @ |1 A: i% [#Version: 1.04 r3 o$ j }8 O
#Date: 2011-03-01 00:00:17
9 r0 [4 d% q) I {4 t#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes% p/ O3 ~% ?7 K+ f' G
2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 298. Z" K0 u. |8 ]( }% O* \) t) ~
搜索引擎蜘蛛:# {% u% [, T2 y, P9 G$ L' c0 A
百度:baiduspider Google:Googlebot Msn:msnbot) k0 K8 B- H9 g- M0 p8 w
yahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider
5 C6 k( C& J( M: c# |6 x+ V: H搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。
2 ~ j) j- ?% {" N) {7 sdate表示记录访问日期;
/ g8 \. _0 [3 u- ytime访问时间;
& U9 g- z- u6 J+ s! G- V" os-sitename表示你的虚拟主机的代称。5 k7 z) s/ s. I# X
s-ip访问者IP;
/ [8 w. b" P0 t6 \8 v. H5 a3 ~cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;2 R5 v) G, [ Y9 Z
cs-uri-stem就是访问哪一个文件;
1 i& Q3 {* V1 p' O/ F, i) }cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;
: Y. ?: f) i' s& E" ^s-port 访问的端口& A8 A7 O! F8 s& T n* O! P
cs-username 访问者名称5 O: ?4 F9 G1 L A9 y3 X- ?
c-ip 来源ip! W! x6 c: n& i; G
cs(User-Agent)访问来源;! [# B0 _# e8 J/ b E/ P
sc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;
1 g0 Q5 c8 j$ L7 tsc-substatus 服务端传送到客户端的字节大小;
) _: V4 s7 Q6 r8 r7 ^& ~cs–win32-statu客户端传送到服务端的字节大小;
/ i5 D2 w: [/ x+ i: [! d1**:请求收到,继续处理7 P4 e( ^1 J& ~
2**:操作成功收到,分析、接受
' Q* I( `) K8 S( z, o2 P. J3**:完成此请求必须进一步处理. D `1 Z* r9 ?& g2 m8 d$ g, ]6 a
4**:请求包含一个错误语法或不能完成
9 s& ^" }" W2 H/ s, X8 B8 x4 A- ^5**:服务器执行一个完全有效请求失败9 p, Y. j) W2 Q4 n/ z
100——客户必须继续发出请求
$ H$ [) A+ s9 g7 J2 S101——客户要求服务器根据请求转换HTTP协议版本
( @* X6 ?/ G8 d200——交易成功
1 Z$ h+ J9 Q. a/ a. N; c: }201——提示知道新文件的URL$ |0 x& y' e9 a3 K
202——接受和处理、但处理未完成% ^4 w# |3 W+ ]. z9 B
203——返回信息不确定或不完整
/ O/ `7 D- Z6 t! Q204——请求收到,但返回信息为空
, p1 H7 y, q9 w2 V* Q205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件/ K3 F7 N2 D2 |( v
206——服务器已经完成了部分用户的GET请求6 F% @# M8 o F2 z5 C
300——请求的资源可在多处得到4 \0 L7 @6 c. z$ K6 r. H7 ^% e& |; f
301——删除请求数据
8 P7 P" N) @. ~8 R' S302——在其他地址发现了请求数据
# x5 n( W+ `, w, z303——建议客户访问其他URL或访问方式/ `: g& l: ?! Q2 X, }; k
304——客户端已经执行了GET,但文件未变化
5 D0 g# z1 d1 t1 B' C1 X: [6 X) S; x305——请求的资源必须从服务器指定的地址得到
' ^9 K; ^. X: v$ C, k& E306——前一版本HTTP中使用的代码,现行版本中不再使用
/ d7 h4 v$ w2 ]& ]" q& ]& k307——申明请求的资源临时性删除& k: F. s/ o+ M3 @
400——错误请求,如语法错误; C/ Q' ]- l! Y- |7 ?! {. \
401——请求授权失败
' _5 @1 W, l; y: C, [- o: M402——保留有效ChargeTo头响应+ T% ?0 j7 H& l: F' ?, B
403——请求不允许' U9 y2 k8 S9 \: m! p7 O& e
404——没有发现文件、查询或URl
/ u1 \/ q; M" k: g405——用户在Request-Line字段定义的方法不允许% R3 x: p1 c$ Y9 ~1 C B
406——根据用户发送的Accept拖,请求资源不可访问3 L$ I' s/ m# K! T; r
407——类似401,用户必须首先在代理服务器上得到授权
" q+ E7 E/ f& ]408——客户端没有在用户指定的饿时间内完成请求
/ P7 {/ \/ u" @9 L+ Y$ W5 j5 W409——对当前资源状态,请求不能完成: i/ ?% N0 p q- I, ?3 g1 S9 V( t
410——服务器上不再有此资源且无进一步的参考地址
6 Z! w" `! m5 H3 M$ N( _5 e411——服务器拒绝用户定义的Content-Length属性请求
$ f& k- D( |* O! O5 w412——一个或多个请求头字段在当前请求中错误0 X/ |( V- J' w; U
413——请求的资源大于服务器允许的大小1 ]# |- F' @9 Q. u- e, p# I, U3 Y
414——请求的资源URL长于服务器允许的长度* I" W9 W' P! M9 T/ |+ a
415——请求资源不支持请求项目格式% y) ~$ }" c9 O: j( g
416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段
/ q; P3 O, y4 V417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求, d0 T2 g& Q. @& z% U2 C
500——服务器产生内部错误
# r# @; K* j# D+ D501——服务器不支持请求的函数
$ v. D& s+ c; |; ~# q/ k% a0 j5 J502——服务器暂时不可用,有时是为了防止发生系统过载; i0 x M6 ~& @5 l4 \. A
503——服务器过载或暂停维修" L: k7 U+ _! H# |
504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长
' m6 K0 q* I+ c8 |: F% Q505——服务器不支持或拒绝支请求头中指定的HTTP版本
2 l( V: q. d% ~6 H$ q6 V我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录 做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢? 红涛前面推荐了一款工具:网站日志分析工具
* y- I0 R# }8 }7 I3 h/ @& p9 w网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图:; W; z1 i: s& M/ \" [& W2 z( s
" u. X' U9 R4 [! e D5 A
9 W/ ?3 G+ [' p0 o, P* K% V既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:+ k" ~5 t2 h1 s; x9 g$ y2 }3 f
#Software: Microsoft Internet Information Services 6.00 C3 f+ n9 f+ S+ C+ T4 h
#Version: 1.0
/ O. E% R* ~2 a6 R5 V#Date: 2011-03-01 00:00:171 V( S- E+ n" f" a5 [2 ^* h$ j) D; a
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes" k# [4 X7 j; Y1 f
2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 298
/ S& ]( `( a3 c搜索引擎蜘蛛:
9 L5 O/ m/ ?- V: M& e百度:baiduspider Google:Googlebot Msn:msnbot
( k+ ~" P( }0 K% byahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider$ w8 m- E- ]- M5 A/ u# l9 m3 B
搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。
4 S6 K/ g. x0 _4 h3 fdate表示记录访问日期;/ {- [6 t) O& P
time访问时间;- Z7 m$ f q$ r6 c8 @4 S2 F2 `
s-sitename表示你的虚拟主机的代称。- [2 J* p* [- ~7 h! e6 }
s-ip访问者IP;
& b/ {3 |! {! E; y+ _* [cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;4 e2 L& j1 b% `6 v
cs-uri-stem就是访问哪一个文件;6 D- a6 i7 }& q" f! a; d1 i
cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;
# H2 P e7 A/ H) ys-port 访问的端口 y0 }6 k3 u+ ~$ g3 ]0 x
cs-username 访问者名称
6 B5 Z. \7 h3 |0 Zc-ip 来源ip3 T2 h3 k0 ]9 s1 t5 Q
cs(User-Agent)访问来源;
?% Q& m1 Q+ ?- usc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;8 s6 r1 E' s: d1 |9 Z7 u
sc-substatus 服务端传送到客户端的字节大小;0 Z, t8 M# W# X6 I2 ^/ P. c0 ^ g
cs–win32-statu客户端传送到服务端的字节大小;7 I) ]) z7 C0 A( T8 y6 ~
1**:请求收到,继续处理
+ R/ p5 Y6 f6 J' R4 I2**:操作成功收到,分析、接受6 L( W, H0 p3 M) Z
3**:完成此请求必须进一步处理
4 W" F% h( d0 }" w- O; s q9 E4**:请求包含一个错误语法或不能完成$ g5 ]# u6 A2 \5 G
5**:服务器执行一个完全有效请求失败3 a0 p3 @" e6 T, g6 c3 H) d
100——客户必须继续发出请求1 e7 A+ a5 G1 a0 _) z6 d; F- K6 ]: `
101——客户要求服务器根据请求转换HTTP协议版本
: D* T$ _- x2 U4 \200——交易成功
) W5 M) z0 K+ Q1 I3 i201——提示知道新文件的URL
4 o6 \3 I: j. t# m$ ^4 O/ o202——接受和处理、但处理未完成& y" D Y, \, {
203——返回信息不确定或不完整
2 s- P, w/ u% b' f204——请求收到,但返回信息为空+ y6 N, W- z, c2 u3 ^/ S8 @9 c
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件+ @% |5 n9 \ F1 R4 |
206——服务器已经完成了部分用户的GET请求3 R& d; @! H- T: P" P
300——请求的资源可在多处得到: J0 t) a9 @8 o7 k% g8 A+ B" s8 x
301——删除请求数据
% L- y6 S- X# B% V/ B302——在其他地址发现了请求数据
! C$ ]+ M. _+ I8 Q303——建议客户访问其他URL或访问方式
: L% B- C# I* s. v# W; p- f+ M304——客户端已经执行了GET,但文件未变化) ?& `7 t: n! @6 V/ c+ m5 F6 K
305——请求的资源必须从服务器指定的地址得到( Y3 s8 S5 ?3 m& ]2 s0 N2 M
306——前一版本HTTP中使用的代码,现行版本中不再使用
9 k; x- |- c% b2 J307——申明请求的资源临时性删除1 g Q! Q/ w s5 T
400——错误请求,如语法错误
) x3 I( ]0 ?* h' R- u401——请求授权失败! J4 @8 `) U Y- B: o+ T3 R3 I
402——保留有效ChargeTo头响应0 G$ j4 q. y# z
403——请求不允许. a7 |) C9 O+ o6 N) o0 P0 @% x
404——没有发现文件、查询或URl
3 o F4 z6 c4 S, n. t" ?405——用户在Request-Line字段定义的方法不允许
% B, w/ P: {- A& ^4 P406——根据用户发送的Accept拖,请求资源不可访问# S8 H7 u$ S; W+ ~# `
407——类似401,用户必须首先在代理服务器上得到授权
' a7 a6 d/ o1 g3 [& y, g5 F0 j$ M k408——客户端没有在用户指定的饿时间内完成请求
2 B# e. Y1 d# f+ O8 K' d$ z. G409——对当前资源状态,请求不能完成
8 E; j, p" e; {- |% I* J410——服务器上不再有此资源且无进一步的参考地址: b+ P/ S% o9 @6 G0 ]
411——服务器拒绝用户定义的Content-Length属性请求& ^" l$ J/ D: G3 R$ ?- Y& e9 e
412——一个或多个请求头字段在当前请求中错误
( r4 p5 X1 n% X$ i/ v413——请求的资源大于服务器允许的大小) J: G4 _& ^* C8 T- p
414——请求的资源URL长于服务器允许的长度+ o" T/ ?* N* p% X" E# k1 v
415——请求资源不支持请求项目格式" h: L' Z0 i! W, X9 T4 Z8 N; |
416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段
8 ]. \8 d6 {( ^+ y$ e417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求2 I- W1 F4 {2 ]4 Y
500——服务器产生内部错误
- O/ u4 ?2 Z0 _9 w( X2 ?6 I# C501——服务器不支持请求的函数
$ y+ i" P3 Y. K) x$ C6 U1 ~, C p; _502——服务器暂时不可用,有时是为了防止发生系统过载. O- J- l" S, z; k4 q1 C
503——服务器过载或暂停维修0 z7 P0 @6 j9 ]; W
504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长
# u7 ~5 \0 h/ n. L! Q5 I( T505——服务器不支持或拒绝支请求头中指定的HTTP版本9 H# `; Q: J8 M
我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去site:www.hongtaoseo.com ,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录/ \$ V1 d' R/ Y5 A
分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。本文由www.hspayy.com论坛发布,转载请注明出处!% x+ l% Y/ z9 P$ Q. T2 n
4 J! R. r" e7 c
分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。- v. n( X& ?8 \
) K1 u" |5 d' e- Y
( m3 m S6 ?" ~9 |8 _$ v |