找回密码
 加入怎通
查看: 174|回复: 1

Linux服务器故障排查基本方案(linux服务器故障排查)

[复制链接]
我来看看 发表于 2023-03-22 06:33:39 | 显示全部楼层 |阅读模式
" H. n R% [/ D4 P% w" q( e

服务器架构服务器系统为Centos7首先需要知晓系统的对外的架构一般架构:1.域名--->云服务器(ECS)2.域名--->CDN--->云服务器(OSS)3.域名--->CDN--->云服务器ECS+数据库RDS+缓存Redis

8 U+ B) A2 ^2 {% N7 N* P

4.域名--->CDN--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis5.域名--->CDN-->WAF防火墙--->负载均衡--->云服务器ECS+数据库RDS(主从)+缓存Redis

* |' A) |, e2 ^- S" C4 g4 \0 U

再根据实际情况出现的问题,一步步排查。

) t8 {3 i& |0 H+ R' M- P6 }

发现问题一、发现问题首先发现问题,及时确定哪个服务出现问题,以便方便快速定位问题。查找对应的域名和设备Zabbix监控发钉钉告警

6 y3 b$ p7 ~/ `. v, ?

阿里云监控告警短信【阿里云】尊敬的***,云监控-云数据库RDS版于发生报警,CPU使用率(91.88>=80),持续时间4分钟3.shell脚本邮件告警

5 T8 S( u* Y4 I, @) W2 t

4.其他同事客服、市场同事等钉钉、电话报告出现的问题二、快速定位问题网络带宽(CDN是否异常)域名是否解析到源站登录阿里云CDN后台查看相应流量负载均衡检查负载均衡是否正常运行,是否流量异常应用层服务器

. R! ~$ i. e) _4 w

ECS服务器负载是否正常、cpu、内存负载是否过高,硬盘使用率是否达到100%等缓存服务器redis服务器负载是否正常、内存使用率如何数据库服务器数据库连接数是否正常列出当前用户的所有连接信息;show

9 ~& u0 }! V+ P+ q J4 t

fullprocesslist; 杀进程,时长消耗太长的sql进程selectconcat(kill , id, ;) from information_schema.processlist where

" n! v v1 ]; [& x- s" D! ?

command != Sleepandtime > 2*60orderbytimedesc; 让将sql语句发给后端研发分析远程连接服务器问题:CPU高,负载高,访问慢(数据库正常)系统层面查看负载查看负载、CPU、内存、上线时间、高资源进程

8 g! O$ M9 z. _

# top ) l9 F' [) T' U6 ?7 [1 f0 k G& _ 安装: yum -y install htop: k: X U. d; T1 t7 K/ |4 g* G( N # htop 查看top服务器负载,内存消耗,df -h查看硬盘top * h. P; q& D' d& s ^" ^ df 查看nginx日志如果有nginx日志,进入nginx日志目录按照日志大小排列

6 @' z1 f" H( ^9 ?: ~6 d* L

判断日志访问、相应时长,url等cd/data/wwwroot/logll-Srhtail-f XXX.XXX.COM-access.log分析日志,找出最多的IP日志、最多的URL等GoAccess、ELK后台查看日志

; N+ [/ @! {8 v- d7 e$ I

查看磁盘使用情况df -h查看磁盘当前情况iostat-x-k33avg-cpu:%user%nice%system%iowait%steal%idle3.700.002.250.410.0093.64

( P; r W- | j$ R8 r

Device:rrqm/swrqm/sr/sw/srkB/swkB/savgrq-szavgqu-szawaitr_awaitw_awaitsvctm%utilvda0.010.830.301.4811.34

8 h! x% r4 h' Y q3 S- o

12.1326.300.016.157.415.890.240.04vdb0.000.170.020.280.082.7519.150.003.222.013.290.260.01vdc0.100.84

; o3 l9 ]9 F' g9 X3 Z. t2 ]2 e

3.090.56105.2220.5768.940.027.963.2933.741.330.49如果发现当前磁盘忙碌,则查看是哪个PID在忙碌:安装yuminstall-yiotop# iotop -o -P -k -d 5

2 S/ T, ?4 t0 X2 D* |

查看对外服务和端口# netstat -tunplActiveInternetconnections(onlyservers)ProtoRecv-QSend-QLocalAddressForeignAddress

/ z o1 _% T$ X+ W; _

StatePID/Programnametcp000.0.0.0:629200.0.0.0:*LISTEN29177/vsftpdtcp000.0.0.0:80800.0.0.0:*LISTEN4393

1 v5 d3 E" A$ L6 k7 x) P6 W% D, V

/httpdtcp000.0.0.0:73000.0.0.0:*LISTEN 4697/php-fpm:maste查看 PID 具体在安装yum install lsoflsof-p PIDlsof

0 ]$ b- ^; H4 a

-p 29177lsof-p 4697 查看系统日志tail -400f /var/log/messages # H, V1 N. D5 h/ {" ?7 I' l tail -f /var/log/messages 5 j1 U u/ w3 a. c tail -n100 /var/log/messages4 N' X, \1 f0 O head -n100 /var/

" d% C. f, ?- H4 L* g2 ?* w2 T

log/messages查看简化线程树pstree -a >> /root/pstree.log网络问题ping域名pingwww.XXX.com查看网络节点情况安装: yuminstall-ytraceroute

+ L9 q/ L3 a) T- z

traceroutewww.baidu.com问题:CPU 低,负载高,访问慢(数据库)判断的数据库1.慢查询检查慢查询日志,可能是慢查询引起负载高,根据配置文件查看存放位置:log_slow_queries

' Q t1 ~: L4 _/ ~( g M; N

2.是否有系统瓶颈升级系统cpu、内存、硬盘,优化架构增加主从,一主多从等3.sleep连接是否过多showfullprocesslist;4.查看最大连接数查看设置的最大连接数5 m5 Y( r& I2 K! ~ showvariables。

/ l0 x$ Y, s0 g2 A" N5 k- F5 _2 a& e

likemax_connections; 1 ` |/ d6 C8 d4 {1 n7 v: ^ 重新设置最大连接数9 W- u: ]7 f$ I& K$ \/ H setGLOBAL max_connections=300Nginx防护基本命令如果有一些异常访问,可以加入配合阿里云的WAF访问最多真实用户的IP。

7 G. y* Q1 O* C" w5 w4 e2 ?. k4 q w

cat www.XXXX.com-access.log |awk {print $5}| awk -F":"{print $NF} |sort|uniq -c|sort -nr|head -10查看访问排行前10的url

1 R2 v2 e- e4 T! i# x

cat www.XXX.com-access.log | awk {print $10} | sort | uniq -c | sort -nr | head -n 10执行时间最长10条cat www.XXX.com-access.

& S( u3 M2 T, q% q, }( |8 V

log | sort -nr | head -n 10查看http_referer来路:cat www.XXX.com-access.log | awk -F"from:"{print $NF} |sort

# @5 C1 I9 R3 y0 p; g' b. n

|uniq -c|sort -nr|head -10封IP,查看特定的referer来源地址服务器防火墙封ip封IP段/sbin/iptables-IINPUT-s61.37.80.0/24-jDROP

, D5 A, f& `4 e8 J$ |9 P3 C( N. l

#屏蔽单个IP的命令是deny123.45.6.7#封整个段即从123.0.0.1到123.255.255.254的命令deny123.0.0.0/8禁止特定用户代理(User Agents)访问if (

& ~5 `5 Z3 Y! T3 P3 f

$http_user_agent~* (wget|curl|Firefox) ) { ( }' w4 o0 X, o5 A3 e return404; 9 P: E' ~$ }# e0 H2 g# d }特定的地址攻击做跳转rewrite ^/accounts/\+\$str\+ http://127.0.0.1/

& W; E+ Q& ^2 R: p

redirect;根据 user_agent 控制客户端访问location / { * [1 R I4 ^* B- ?; q4 a* k if ($http_user_agent~ bingbot/2.0|MJ12bot/v1.4.2|Spider/3.0|YoudaoBot|Tomato|Gecko/20100315)

. j& ~; t1 y3 ^, F' \9 S

{! L) `1 ^2 b# o3 f0 v return403;+ h3 m* G# M# L/ m } ! @$ w5 }+ w( Y) a }图片防盗链valid_referersnoneblocked *.XXX.com server_names ~\.google\. ~\.baidu\.; * R5 y2 ]1 m5 Q" X

% L7 A( Y. X0 p1 P0 d

if ($invalid_referer) {# J) W, K% G9 Z9 [% \/ |4 F # return 403;rewrite ^/ http://www.XXX.com/daoling.png;. T8 m/ ?6 B# j3 |5 X( i5 P" X }

) G8 t6 B5 j1 [; G6 }

不允许host为localhost访问if ($host = localhost) {+ S9 a% S/ J2 r8 S p# v return403;" u; X8 s! ]$ e+ T& ~- C }不允许agent为空if ($http_user_agent

n3 Y A8 Q9 x T& ~ `1 H

~ ^$){1 l K& J; G5 o: w return403;; S5 x/ N1 U' G6 A }不允许绑定host主机访问if ($http_x_forwarded_for~ ^$){ L! }. `) k, G

. d/ b: x* y3 Z- H2 ^

return402;- W/ A7 _8 s0 f% _; s+ ~ }

8 T: u1 _+ B. c - D* J- Y+ F5 @) |* u D6 {! a$ o; p& O3 e2 |2 a ^ 4 b. O0 z- w- r9 {. T$ m4 J3 z+ ?$ H3 V( Y+ h6 u: ~7 g
回复

使用道具 举报

~~@@~~ 发表于 2026-01-17 03:42:22 | 显示全部楼层
这个思路很新颖,打开了新世界的大门,谢谢分享
回复 支持 反对

使用道具 举报

    您需要登录后才可以回帖 登录 | 加入怎通

    本版积分规则

    QQ|手机版|小黑屋|网站地图|真牛社区 ( 苏ICP备2023040716号-2 )

    GMT+8, 2026-3-17 14:44 , Processed in 0.367098 second(s), 22 queries , Gzip On.

    免责声明:本站信息来自互联网,本站不对其内容真实性负责,如有侵权等情况请联系420897364#qq.com(把#换成@)删除。

    Powered by Discuz! X3.5

    快速回复 返回顶部 返回列表