做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢? 红涛前面推荐了一款工具:网站日志分析工具
: V% _7 `. u% P( }% j, h5 S$ {& \网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图:
8 _, Y3 O/ B5 l7 G" _/ |) y, s% N# M r0 J$ G: B
+ _( _6 d7 _% }* h n8 P既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:
- r" Q, i) r3 d5 Y, d2 q$ x#Software: Microsoft Internet Information Services 6.0
8 d& C \$ }0 v3 D6 x#Version: 1.0! _0 C3 Y# n; B$ T% G: O) y y9 H
#Date: 2011-03-01 00:00:17
2 y6 `6 E8 i J) B9 y; Q9 k- j#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
0 s: S Q3 B6 P) w3 l; U# ]2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 298
6 d% |! a/ \2 j. {8 ^1 L搜索引擎蜘蛛:1 q2 m7 R/ T0 F0 Q; M$ j4 @
百度:baiduspider Google:Googlebot Msn:msnbot! T/ m; h% h3 r3 x6 w
yahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider
9 R. z2 n% O9 E; C搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。
2 k) M2 z+ d+ W( ~, P2 _date表示记录访问日期;
5 g& p5 n9 V3 F7 W6 \; Rtime访问时间;. e/ ]4 S4 j& [. x
s-sitename表示你的虚拟主机的代称。
9 H Q' f9 t$ a; w' x- u" zs-ip访问者IP;
% O1 E' z& p; E0 W( t% Ycs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;
+ i1 x; O0 w" y4 r% Ocs-uri-stem就是访问哪一个文件;
9 W4 n, [6 x8 j& D6 t$ q, Ycs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;
+ s" `- i8 r& \, `3 S/ }2 }6 ts-port 访问的端口
9 r! Q5 U: u- j) acs-username 访问者名称! H9 H5 n' K0 Y1 B" m2 E' _+ h
c-ip 来源ip
5 U3 l( r# N b3 ycs(User-Agent)访问来源;7 Q& a2 j( J7 h/ b; |
sc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;$ B! a5 a0 L: S' q: ~: \; G0 c
sc-substatus 服务端传送到客户端的字节大小;
0 l; {; r i' U6 f5 Qcs–win32-statu客户端传送到服务端的字节大小;/ g" v0 P" ~' z7 A, B8 G, t5 g" ]0 |, O
1**:请求收到,继续处理
+ [' S3 h. M( v# D0 _5 _2**:操作成功收到,分析、接受
f3 w" k* K6 B3**:完成此请求必须进一步处理, B& P' @8 d' o( j# u5 C" O
4**:请求包含一个错误语法或不能完成2 v( \1 Q+ {2 F* C5 x$ I' ~* N
5**:服务器执行一个完全有效请求失败9 T6 D2 a+ T6 V* I2 L
100——客户必须继续发出请求
) c% K+ y8 P7 D; f1 L1 T2 W101——客户要求服务器根据请求转换HTTP协议版本- E) a3 r8 o6 H8 F. B# V7 a' a
200——交易成功
! X1 k8 R& K5 b' n+ ?; s( i$ u9 B201——提示知道新文件的URL
$ J; G! ^. s2 X8 v2 p8 q' i202——接受和处理、但处理未完成9 i" O; V5 L: n y& Q1 I& V
203——返回信息不确定或不完整
8 |$ `7 c8 C/ ?& Y204——请求收到,但返回信息为空 o; b, q, V5 ]6 h4 r
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件
. w: _4 A! d9 O206——服务器已经完成了部分用户的GET请求% ?5 [5 X2 h. [! b: u
300——请求的资源可在多处得到* t2 c6 t2 `2 s* R- s0 q/ C# K
301——删除请求数据
! V# r" `9 Y5 y302——在其他地址发现了请求数据
8 ?7 d8 M) u( b$ {5 ^303——建议客户访问其他URL或访问方式8 x5 P1 D# \$ X$ ~3 c7 |6 C$ j
304——客户端已经执行了GET,但文件未变化9 v8 {: h* k1 \* ^- U% m/ |; k
305——请求的资源必须从服务器指定的地址得到+ z' U- N' ~7 H1 o: R8 \
306——前一版本HTTP中使用的代码,现行版本中不再使用
/ D. M& Q* ^! `2 v' z: N* ~$ e6 e, P307——申明请求的资源临时性删除, B( h% ?9 D- ~ F, L
400——错误请求,如语法错误/ v! @* r& u" n. L$ c/ |% u$ w
401——请求授权失败
) B7 d7 g! y( C# G D9 W: b402——保留有效ChargeTo头响应
* H+ N% |* j* R6 a+ @9 o403——请求不允许
* k; Y+ F; n, F, `7 A2 `2 _404——没有发现文件、查询或URl
9 ~6 @& |8 l, E+ r! k' p405——用户在Request-Line字段定义的方法不允许
/ } X2 N2 K C* r. C" I" u8 B1 D406——根据用户发送的Accept拖,请求资源不可访问2 Y1 ^) e5 @$ G5 X
407——类似401,用户必须首先在代理服务器上得到授权
3 ]* j+ x0 q8 J& p/ y2 J0 J- d; O: d2 ^408——客户端没有在用户指定的饿时间内完成请求' j6 M+ c( L+ g/ l$ h
409——对当前资源状态,请求不能完成
' b' P0 i. n' t" D410——服务器上不再有此资源且无进一步的参考地址* h3 }6 ~& a, t/ M4 Y# [9 D% F" b
411——服务器拒绝用户定义的Content-Length属性请求
x# a" {% j8 K" I5 y4 c412——一个或多个请求头字段在当前请求中错误
+ Y4 L( a- c. y+ J' c413——请求的资源大于服务器允许的大小
0 w8 g' ]" O4 @) u* R; P414——请求的资源URL长于服务器允许的长度8 N y3 [. [/ W P8 F2 L
415——请求资源不支持请求项目格式
Y+ i" Z* r! i8 @* Z" [416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段) Y3 p" P5 z, v
417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求
1 A5 V( I. f* @2 o7 \. b! F* L500——服务器产生内部错误
4 H, b ~* U7 D3 X! \501——服务器不支持请求的函数9 C1 a( W, u$ K5 y' n% [: a
502——服务器暂时不可用,有时是为了防止发生系统过载8 I- @) d- U7 r4 w. {+ z
503——服务器过载或暂停维修
4 Y1 C) d! c" g0 X2 G% l! ?504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长
; T w+ }) V$ c7 L3 T, J* a4 q505——服务器不支持或拒绝支请求头中指定的HTTP版本( `; k. K8 w0 F, k) E+ Q+ C
我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录 做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢? 红涛前面推荐了一款工具:网站日志分析工具
1 S6 _7 T7 q3 \* ]* L4 }" L' `网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图:; F2 ^9 z& o, {8 q
# }. e, Q# D! ]7 O0 ~) x
7 }7 \3 F* i* h" d* n0 r
既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:
$ m) u. [1 B6 }" H D#Software: Microsoft Internet Information Services 6.0
1 G& I6 U% Y/ q, F7 z, @#Version: 1.01 U; s8 [; {6 l3 c+ L7 [
#Date: 2011-03-01 00:00:17
" [% t! p8 M. Z+ Z#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes
* [* v. c4 L" D8 @9 d5 v! Q2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 298
+ o9 v$ c v" W" X3 i" V' \9 ~- F9 l搜索引擎蜘蛛:
& B& z2 H) B' R% }- f百度:baiduspider Google:Googlebot Msn:msnbot" @( w3 S8 s! [9 I0 L) O% c
yahoo:Slurp yodao:YoudaoBot sogou:Sogou+get+spider: R. v1 }0 U( `
搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。
2 ~! r+ D D* i. udate表示记录访问日期;
. P' m: D& O4 C! H2 Ktime访问时间;5 c* F) \! n3 A s$ W2 E) V% t, w
s-sitename表示你的虚拟主机的代称。
) ]" Q4 J" ?% M3 ?0 f7 Bs-ip访问者IP;# h/ w& V. }9 g$ N# [$ |( d. R, W
cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;; m9 }: x5 X# B* O- b3 s
cs-uri-stem就是访问哪一个文件;, C) M. A \1 G
cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;0 \9 s" v* w' G* q0 T4 X
s-port 访问的端口
1 t) Y- l; V6 e1 p4 Ocs-username 访问者名称, N% s7 ?" S4 I& g
c-ip 来源ip
8 z, J* J0 ^$ N: v& N }- hcs(User-Agent)访问来源;
9 g! D7 w9 I; V- Lsc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;1 i/ s7 M% @- ]
sc-substatus 服务端传送到客户端的字节大小;' \2 W2 d" v7 e
cs–win32-statu客户端传送到服务端的字节大小;9 N& e0 b( ~" c: C
1**:请求收到,继续处理( ?3 d2 ]; s# g/ r
2**:操作成功收到,分析、接受
2 ^ ]$ J K5 ]3 q l7 A3**:完成此请求必须进一步处理
, ]; y4 }8 ~ m4**:请求包含一个错误语法或不能完成6 f. {+ O& |7 Z2 ]5 Z& v! u' l2 B
5**:服务器执行一个完全有效请求失败7 K" H7 b% m# t% Z+ u
100——客户必须继续发出请求* ?- W* [& B& K- g+ ?5 \
101——客户要求服务器根据请求转换HTTP协议版本/ m; r& {+ ]* ?- G! N& |
200——交易成功 l6 p0 _& t5 T2 Q! e
201——提示知道新文件的URL" N6 r; F! g3 H% i
202——接受和处理、但处理未完成5 C) C/ ^9 ~) v0 C# S
203——返回信息不确定或不完整
3 J2 q5 T5 X& j$ ?+ {$ @2 t& j204——请求收到,但返回信息为空. t9 _% l4 ]: s! k0 d$ |
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件( `% V9 V5 c U" L4 e7 d# ]6 D/ @
206——服务器已经完成了部分用户的GET请求
' r4 z9 B; O$ e1 M# b300——请求的资源可在多处得到0 E# @8 h. O( x+ b, m# t2 \
301——删除请求数据6 f8 Z- H* S5 ~+ t) X" E) S/ g
302——在其他地址发现了请求数据" s5 ?+ {7 n3 b+ ^7 u. G: a
303——建议客户访问其他URL或访问方式4 i7 X/ K$ _2 W& m
304——客户端已经执行了GET,但文件未变化! D. [! v6 U$ M+ o5 r0 ? h- {
305——请求的资源必须从服务器指定的地址得到, k8 m: U' O, c. f2 V9 @
306——前一版本HTTP中使用的代码,现行版本中不再使用
, e# R3 T% j+ C7 P307——申明请求的资源临时性删除1 U9 t' ]' e, A2 X, E; P( j2 I
400——错误请求,如语法错误
" ^5 U- z1 E8 b- w1 X# S8 `401——请求授权失败6 V; T; y4 x e! k4 s
402——保留有效ChargeTo头响应5 F5 g# R; i5 u
403——请求不允许
1 g# u; y2 H# ]) |/ k3 ^404——没有发现文件、查询或URl
& u6 A! ?- P# b3 m/ U/ N1 ]3 ^405——用户在Request-Line字段定义的方法不允许$ V5 j9 j# C( E& a
406——根据用户发送的Accept拖,请求资源不可访问
) b: j0 J6 r- I+ m/ t407——类似401,用户必须首先在代理服务器上得到授权
" b' v9 Y Y7 ?6 e, w+ Q+ I408——客户端没有在用户指定的饿时间内完成请求
$ I9 I8 K2 \/ s& v. u1 u: J409——对当前资源状态,请求不能完成
" A5 P% w2 P& H1 J! R: ?410——服务器上不再有此资源且无进一步的参考地址
5 d$ y3 M: {. B" M7 j' t. `$ @ B411——服务器拒绝用户定义的Content-Length属性请求
! ]! r2 Z0 ~6 {8 F. ]+ d# g! L1 Y" }* E412——一个或多个请求头字段在当前请求中错误
+ ^4 o7 E% e3 r413——请求的资源大于服务器允许的大小2 G. Q' m, u( M- o6 V8 v
414——请求的资源URL长于服务器允许的长度; F M& R$ p$ x# Q a0 T8 |
415——请求资源不支持请求项目格式
' t3 T! h7 R u2 y R5 a, M; s416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段, U5 }6 l7 u3 I9 L) \6 ^# C( |
417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求
& o4 d- N3 P$ L$ [* p- o8 t0 U500——服务器产生内部错误$ I! J ^6 K0 A4 _ C
501——服务器不支持请求的函数
) R, n1 I- r# g# c S1 [, A/ I502——服务器暂时不可用,有时是为了防止发生系统过载: i- v7 {( A+ o6 G2 }
503——服务器过载或暂停维修
- ]: S0 Q; Z! @* k) o504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长1 p6 |4 p% M8 |+ P
505——服务器不支持或拒绝支请求头中指定的HTTP版本
. M3 H3 K* x$ O: ^* f" c0 u我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去site:www.hongtaoseo.com ,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录
9 X I, x" j3 ]. D% r; ]3 E- y分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。本文由www.hspayy.com论坛发布,转载请注明出处!, u8 G& }0 I. z+ \$ v" f) f
# X F: R) p! d. _. n, F7 A/ |) R
分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。0 M+ U- g2 O) E! [
% ?- J: o# m& n0 y: `2 ~; w
8 |+ F( M# d4 ^! ~$ }! |
|