找回密码
 加入怎通
查看: 642|回复: 1

[其他] SEOER必修课——网站日志分析

[复制链接]
ljpayy2012 发表于 2012-12-24 11:16:32 | 显示全部楼层 |阅读模式
做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢?   红涛前面推荐了一款工具:网站日志分析工具. \2 t' c+ u6 N5 n* w1 R1 V- z
网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图:& }5 S0 ^0 D3 {. w: x
7 I' r- ?/ V" Z7 A0 L

5 c7 i" w  K/ ?( d; M. n既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:* `- N, c+ t- i0 j8 y8 U
#Software: Microsoft Internet Information Services 6.0
* m& E9 g% q2 l7 V, S. m% G#Version: 1.0
: u( f+ Y/ ~) }3 l+ i$ `#Date: 2011-03-01 00:00:17' A- q: T/ P& }# |+ B& n2 A
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes2 m: A; e8 [' j$ d" A% J
2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 298, S& u* S+ f( h4 ]+ k
搜索引擎蜘蛛:
* p0 [2 n0 c. Y' z" ~) v. M百度:baiduspider    Google:Googlebot    Msn:msnbot' s9 l: n0 C! `) A3 v2 g
yahoo:Slurp    yodao:YoudaoBot    sogou:Sogou+get+spider
* r8 n2 w1 `2 s: ]4 A搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。
/ ?, j6 S  X* vdate表示记录访问日期;
+ ]+ L  m7 A" a3 M0 ?3 ttime访问时间;% `8 }! S) k$ w5 s- Q4 V  G! k/ G4 x
s-sitename表示你的虚拟主机的代称。. E! y# [) W  ~: P3 N& Y. {
s-ip访问者IP;( _# t# @- U% R2 h5 X8 e
cs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;
& f0 R0 ]  y) n( ?- Hcs-uri-stem就是访问哪一个文件;, [& E7 g! m1 Z
cs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;
9 q1 C- E# C  ^4 Xs-port 访问的端口  C8 m7 I- s# _9 E" ~! K% H5 G
cs-username 访问者名称. f0 [" ?) i' D; t/ f( p  d7 f
c-ip 来源ip1 i% \$ Q/ ?9 H
cs(User-Agent)访问来源;9 l+ U, Y4 ^$ r* f
sc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;7 X* E2 E5 [, [3 ~# ?# \' h2 t
sc-substatus 服务端传送到客户端的字节大小;+ X; C7 T: ?9 y% z- N0 s; ~: o
cs–win32-statu客户端传送到服务端的字节大小;$ |" _" d# I: u
1**:请求收到,继续处理
* t" ]# X+ T, Q5 B- n$ _2**:操作成功收到,分析、接受$ N; o& J. |7 J, L
3**:完成此请求必须进一步处理
* L$ x7 U  A% K1 d  Q; g$ ~' Z/ \5 l4**:请求包含一个错误语法或不能完成" L# Q) d9 x. O! ^# W
5**:服务器执行一个完全有效请求失败
5 S6 W0 T; ]3 p( X. K100——客户必须继续发出请求3 E1 t% n+ C4 ~4 c4 Z- q5 C& T6 G% @8 W) y
101——客户要求服务器根据请求转换HTTP协议版本4 g; w" H+ `: G! O% Q3 J- ~9 K
200——交易成功
- Y9 C( R0 S; o- k201——提示知道新文件的URL
7 D4 S' v! B3 b& k+ q3 N202——接受和处理、但处理未完成
: H% p6 h6 @( u) d203——返回信息不确定或不完整
8 o4 j9 R/ Y& O% s! T3 W204——请求收到,但返回信息为空+ Y: T$ ?3 x" i+ E4 U
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件8 F) z# V" ~7 i. Y  k5 N
206——服务器已经完成了部分用户的GET请求
) J8 H0 B& {! q/ c6 D# z: J300——请求的资源可在多处得到
$ c7 `/ `7 t& t! X1 Q, A301——删除请求数据& ?6 ^4 `8 P) N- l* b3 v' I  m
302——在其他地址发现了请求数据8 n; h5 {. U0 O6 B
303——建议客户访问其他URL或访问方式; O* J2 R/ j  L- ]: L  m8 m
304——客户端已经执行了GET,但文件未变化! r. u/ I) R- U+ g  c
305——请求的资源必须从服务器指定的地址得到. u) U/ j1 u: [
306——前一版本HTTP中使用的代码,现行版本中不再使用$ N. [' H( P" `4 t
307——申明请求的资源临时性删除
% x% I4 l/ Z7 N4 c# j6 b0 A400——错误请求,如语法错误
% H5 P$ g; |. t5 O$ n! S1 @401——请求授权失败
" I6 {0 t# |% p' G0 x402——保留有效ChargeTo头响应7 @5 I% j5 K9 c0 m
403——请求不允许1 h! ?3 x6 ]4 u6 F) R; l, X, b
404——没有发现文件、查询或URl7 z; T* L4 m- c& j( @/ ]- o0 D" j
405——用户在Request-Line字段定义的方法不允许
: r1 m8 ]+ D. @" U: ^, G6 |, }406——根据用户发送的Accept拖,请求资源不可访问
1 X  r$ C" ^) x# \- |4 ~7 M. e407——类似401,用户必须首先在代理服务器上得到授权
0 L4 {! b) r! `* K3 [7 d408——客户端没有在用户指定的饿时间内完成请求. \: B, j% R5 O' f/ @; f
409——对当前资源状态,请求不能完成9 t9 M0 i2 X2 z
410——服务器上不再有此资源且无进一步的参考地址* U# y% L3 C( E  O9 @
411——服务器拒绝用户定义的Content-Length属性请求3 S$ O! i/ @4 f4 \0 W8 F. ?
412——一个或多个请求头字段在当前请求中错误* E" ^6 U7 [! y, k% |8 U$ j% Q
413——请求的资源大于服务器允许的大小
2 {4 R8 |! _! M2 R: ?/ x) f414——请求的资源URL长于服务器允许的长度
- M! K4 v+ e4 ]415——请求资源不支持请求项目格式+ @  Y; L9 ^. q1 M+ W5 s7 F
416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段
' U2 B$ G1 X1 K9 p/ x417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求
8 j, p8 Y: r  F0 S- k( I  c- U500——服务器产生内部错误4 e( Z  i5 z/ Q9 ~5 X- @% B. f
501——服务器不支持请求的函数0 H: d3 @% [! {9 D: U' F
502——服务器暂时不可用,有时是为了防止发生系统过载# }3 Y$ ~  }, ]
503——服务器过载或暂停维修
$ V7 _) L9 x+ j+ n6 O( c( M' [504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长
- C4 ]1 t1 O! e$ s505——服务器不支持或拒绝支请求头中指定的HTTP版本
! z. Y" X& u2 X$ A% J' k我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录 做为一个SEOER学会分析网站日志这是必修课,有很网站出现了问题,光看网站是看不出任何问题的,这个时候要想找原因就必须配合网站来分析,才能得到一个结果。因为日志记记录了网站被搜索引擎爬取的痕迹,给站长提供了蜘蛛是否来访的有力物证,站长朋友可以通过网站日志来分析搜索引擎蜘蛛的抓取情况,分析网站的是否存在收录异常问题。并且我们可以根据这个日志文件判断蜘蛛来访频率以及抓取规律,对于网站的一个长期SEO是非常有帮助的。那我们应该如何做网站日志分析呢?   红涛前面推荐了一款工具:网站日志分析工具
0 R3 E+ Y4 J0 \0 b网站所以有访问纪录都会存在这个网站日志上,包括搜索引擎的记录与访客的信息。一般都会生存在网站的根目录下,常见的形式名件夹名log、weblog或www_logs。我们一般分析就得先这个方件夹里面的内容下载到本地,然后可以用记事本去打开。以下是我空间的网站日志截图:
# A1 ]2 f0 p/ V3 Y8 _$ r6 v9 y% b8 ?9 ?  m

% _1 \$ p' i5 W% s, h! A既然知道了日志存放在哪儿,那么我们又如何简单的入手去分析日志呢?下面我来找一段简单点的日志还看一下:0 a2 ?2 z% B8 H; k+ Q2 i% i* x
#Software: Microsoft Internet Information Services 6.0- o- y4 p4 x7 E4 Y1 s/ [
#Version: 1.0
4 T( J5 d( I0 ~( z9 d* g5 @#Date: 2011-03-01 00:00:172 ~2 Q3 x, Y; d+ T; F- R
#Fields: date time s-sitename s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs(User-Agent) sc-status sc-substatus sc-win32-status sc-bytes cs-bytes! H) o& f, \& p! a4 o" c
2011-03-01 02:44:37 W3SVC381 211.154.135.217 GET /news/news.asp id=200 80 – 203.208.60.169 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.g o o g l e.com/bot.html) 200 0 0 29057 2989 S- K0 C& P9 k! Q% v4 T
搜索引擎蜘蛛:
. Z* n4 R3 O' K, _$ H百度:baiduspider    Google:Googlebot    Msn:msnbot" }4 W1 {8 V: F  N3 C! j$ O
yahoo:Slurp    yodao:YoudaoBot    sogou:Sogou+get+spider) P; \6 n2 F2 b2 K! p* D
搜索以上蜘蛛名称,就可以看到蜘蛛抓取的痕迹。我们重要的就是如何读懂后面的那些代码。我们称HTTP状态码。
  K' M( A# B9 Y7 d% c' sdate表示记录访问日期;% i- H  M6 Y6 V3 j* b$ h
time访问时间;' N; o$ ?  ^; O. B
s-sitename表示你的虚拟主机的代称。
( U' N  N7 s  o& ~; N0 ~/ @s-ip访问者IP;
" k, r0 H3 R+ A! S7 q. r; a' Mcs-method表示访问方法,常见的有两种,一是GET,就是平常我们打开一个URL访问的动作,二是POST,提交表单时的动作;
1 X) [9 B( F! U: n3 u- l" r5 P: kcs-uri-stem就是访问哪一个文件;
) c4 V+ e/ J: I5 Z/ O' Zcs-uri-query是指访问地址的附带参数,如asp文件?后面的字符串id=12等等,如果没有参数则用-表示;+ p, n$ `& I3 k; d/ ]) k; b
s-port 访问的端口# Y9 G8 i7 L! ~7 [* j
cs-username 访问者名称4 j# Y2 Q( h9 ?9 t8 ?
c-ip 来源ip
; j2 F" [- g2 M, C6 V5 S- mcs(User-Agent)访问来源;
3 U3 p; b3 L$ g+ Y0 P/ s6 x3 msc-status状态,200表示成功,403表示没有权限,404表示打不到该页面,500表示程序有错;4 U& C' {* M4 ^
sc-substatus 服务端传送到客户端的字节大小;
0 \' d' E1 s( h! jcs–win32-statu客户端传送到服务端的字节大小;+ g: @% V! q  Y
1**:请求收到,继续处理
9 ^0 j4 |1 C, T( V. ]2**:操作成功收到,分析、接受
, K) S/ t2 P3 A9 s* F3**:完成此请求必须进一步处理
' m0 E) r$ e0 `3 `+ p: c$ ^4**:请求包含一个错误语法或不能完成
/ |+ D! C- b9 S- P9 @7 _% @* ~5**:服务器执行一个完全有效请求失败
# x% ?$ `6 A4 g0 e' c: f( U0 b100——客户必须继续发出请求
0 C1 X# s+ h5 l: q1 V101——客户要求服务器根据请求转换HTTP协议版本' p2 t' [! S! m$ e
200——交易成功# t/ H0 F4 y+ ?; n
201——提示知道新文件的URL' \0 l+ M$ {  y$ ~* w* `
202——接受和处理、但处理未完成
& ?" {5 @" s5 L5 k9 ^' ]' Y' s203——返回信息不确定或不完整
6 J6 z& x4 U, C& E+ E+ \' Y204——请求收到,但返回信息为空  u. T9 \! d% l9 {0 }
205——服务器完成了请求,用户代理必须复位当前已经浏览过的文件* s( s4 L& L5 V. T1 Q* K- R
206——服务器已经完成了部分用户的GET请求* r8 Q# L3 E+ L$ I( N! Y# h3 ^
300——请求的资源可在多处得到& C0 r  u1 H. o7 m
301——删除请求数据+ V( s6 U( L' r1 c! t# U' y" F/ ]
302——在其他地址发现了请求数据
9 n4 U2 t* S: u+ d! f303——建议客户访问其他URL或访问方式; s9 A3 S& ~& ^$ t& {" J, R6 I- e. ]
304——客户端已经执行了GET,但文件未变化
6 Q% p# z/ u- G305——请求的资源必须从服务器指定的地址得到
/ T& }8 I5 W# F# v3 a+ t. D, N, e0 P% s306——前一版本HTTP中使用的代码,现行版本中不再使用
( `4 G- H" M9 E  G) n307——申明请求的资源临时性删除
# k4 p) {0 g7 n* V& g2 M# `9 n400——错误请求,如语法错误- E% [4 F) C6 M+ C9 A: f
401——请求授权失败* j0 g+ g3 k3 i& |' H+ N& J
402——保留有效ChargeTo头响应
; O% J4 {. G+ h2 F6 D( B& d403——请求不允许
8 d# q  B, Y$ D* \, E, B* a404——没有发现文件、查询或URl
% V! x7 v* j: E3 t- _; v405——用户在Request-Line字段定义的方法不允许# P9 j0 _# b3 q4 d2 o/ z9 s
406——根据用户发送的Accept拖,请求资源不可访问0 _" S" K; V0 X+ }1 y. G+ t
407——类似401,用户必须首先在代理服务器上得到授权
3 Y  E( x; u% C$ z# |  w  I6 B408——客户端没有在用户指定的饿时间内完成请求
: O' \' ]( x) i0 u, R409——对当前资源状态,请求不能完成. a$ l7 ~8 z+ K* f" g" ~
410——服务器上不再有此资源且无进一步的参考地址8 w3 `0 o- ?9 B  s
411——服务器拒绝用户定义的Content-Length属性请求" a' ^, e$ s/ u
412——一个或多个请求头字段在当前请求中错误! q3 W5 G& w6 ^( p9 K
413——请求的资源大于服务器允许的大小, G8 y! ^4 m7 k  R3 E2 u7 c
414——请求的资源URL长于服务器允许的长度4 X9 R! }1 `3 r# W
415——请求资源不支持请求项目格式
8 d7 O* Y# s1 i  T416——请求中包含Range请求头字段,在当前请求资源范围内没有range指示值,请求也不包含If-Range请求头字段- q/ t, N0 `4 i% `6 M3 ~
417——服务器不满足请求Expect头字段指定的期望值,如果是代理服务器,可能是下一级服务器不能满足请求
* F" \- d+ u1 S' |& Z2 o3 I5 g500——服务器产生内部错误
1 `2 S! N- x0 l& \; {+ C501——服务器不支持请求的函数1 r- R6 x! o5 r/ K' U; U& x
502——服务器暂时不可用,有时是为了防止发生系统过载
6 D/ J# |  j; O8 p0 O5 R1 [503——服务器过载或暂停维修
: i( v6 d" Q8 ?' i% `6 s( Q" j504——关口过载,服务器使用另一个关口或服务来响应用户,等待时间设定值较长
! G% j$ z0 |8 @5 K0 t% P6 L* W2 c- }505——服务器不支持或拒绝支请求头中指定的HTTP版本! t4 d4 p- e. [" ^, N. Y
我们站长朋友有时候非常关心的问题就是网站收录,特别是新站,我们也经常去site:www.hongtaoseo.com   ,看看收录了哪些页面等等。如果是这种情况我们最好的方式就是去分析一下日志,有可能新站前期蜘蛛是有来我们网站的抓取,但是结果没有放出来,我们光靠前面那个命令是查不结果的,但是在网站日志里面会留下纪录。这个时候我们要做的事情,就是看看搜索引擎爬行我们网站上时,返回的一个状态码,是否正常。如果返回200说明抓取成功,如果返回404说明页面错误,或者页面不存在,就需要做301永久重定向或者302暂时重定向。如果基本是200信息,那我们不用担心,网站会很快放出来的。就这个收录问题红涛前几天写过一篇文章:新站如何让百度快速收录# J) I% |. P, m7 y$ h
分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。本文由www.hspayy.com论坛发布,转载请注明出处!
- s' _3 d$ h2 Y( ^8 y+ W4 O3 |9 U
分析网站日志还是非常重要的,平时我们新站和被降权的网站,我们一般要多观察网站日志,这个里面就能看出网站真正的问题。只是日志有时候比较复杂,所以我们就不能懒手脚,要耐心的去看。* w) S5 U& V2 Z$ x3 i5 P

8 h9 G% a9 I# z1 p  c% w) \$ @. Z' j% a& ]3 F; ]: f6 }( j
回复

使用道具 举报

怃懙伦ㄣ仳 发表于 2026-04-09 10:31:48 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-4-28 01:27 , Processed in 0.145969 second(s), 24 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表