问题定位-06-如何从日志、抓包、监控三者联动排障

发表于 2021-06-17 分类于问题定位本文字数： 2.7k 阅读时长 ≈ 10 分钟

很多复杂问题之所以难定位，不是因为证据不够，而是因为证据太散。

现场常见的情况是：

监控说某个时间点异常了
日志里看到了报错
抓包里也看到了一些异常现象

但团队还是回答不出来：

最早的异常到底从哪一层开始
当前看到的是根因还是连锁反应
下一步该先改哪一层

这类问题如果只看单一证据源，特别容易跑偏。

比如：

只看日志，很容易把所有问题都判断成应用逻辑问题
只看抓包，会把很多应用慢误判成网络慢
只看监控，会知道系统有波动，但不知道具体哪条链路先坏

所以真正高效的现场排障，往往不是三选一，而是：

监控找时间窗
日志找处理链路
抓包切协议和网络边界

这篇文章就只讲这件事：

怎么把日志、抓包、监控三者放在一起看，减少误判。

一、先说结论：三种证据各自解决的问题不一样

通常会把这三类证据理解成三种不同视角。

1. 监控回答“什么时候开始不对”

它最擅长回答：

哪个时间点开始波动
哪类指标先变坏
是单点异常还是系统性异常

但监控通常不擅长直接回答：

哪条请求先出问题
某一层具体怎么坏的

2. 日志回答“系统当时做了什么”

它最擅长回答：

代码走到哪了
哪一步报错了
哪个下游调用失败了

但日志不一定能回答：

包到底有没有到
响应到底有没有回来
某些中间链路有没有吞包或改包

3. 抓包回答“请求和响应在链路上到底发生了什么”

它最擅长回答：

请求有没有发出
有没有到达
响应有没有回来
哪一段开始超时、重传、RST、丢失

但抓包不一定知道：

服务端业务逻辑为什么慢
应用内部为什么抛错

所以这三者不是替代关系，而是互相补洞。

二、更常用的一套联动顺序

如果是线上或复杂环境问题，通常按这个顺序排。

1. 先用监控把时间窗和影响面框住

第一步不适合马上翻日志，更不适合先抓一大堆包。
先看监控回答两个问题：

问题从什么时候开始
影响范围是单服务、单节点、单接口，还是系统性

例如优先看：

响应时间
错误率
QPS
CPU / 内存
线程池 / 连接池
网络错误

这一步很关键，因为如果时间窗没框住，后面日志和抓包很容易看散。

2. 再用日志把处理链路拉出来

时间窗确定后，再去看这段时间里的关键日志。

重点回答：

请求到了哪一层
哪一步开始报错
哪个下游调用开始慢
错误是偶发还是连续

如果日志里已经能清楚看到：

参数异常
代码分支错误
数据库报错

那方向通常会更偏应用层。

3. 最后用抓包切边界

当我还不能确定问题是在：

客户端
中间层
服务端
下游链路

这时才会抓包进一步切边界。

抓包最常帮我回答：

请求到底有没有到
服务到底有没有回
回包是不是被中间层吞了
超时到底发生在网络层还是应用处理层

三、三者联动时最重要的，不是信息多，而是时间对齐

很多排障失败，不是证据少，而是三类证据时间没对齐。

更倾向于先建立一条统一时间线：

10:21:03 监控开始出现 RT 抬升
10:21:05 应用日志第一次出现下游调用超时
10:21:05~10:21:12 抓包显示请求已发出，但响应首包很晚才回来

一旦能这样对齐，问题会一下子清晰很多。

所以我排障时特别看重：

请求时间
日志时间
监控采样时间
抓包时间戳

如果这些时间轴没先对齐，三方各说各话的概率会非常高。

四、几类特别高频的联动排障场景

1. 监控先报慢，但日志看不出明显错误

这种场景很常见。

排法通常是：

先看监控里是哪类接口慢
再看日志里这些接口的处理时长分布
如果日志看起来逻辑正常，再用抓包判断：
- 建连是否慢
- 响应是否晚回
- 是否有大量重传

这类场景很容易把网络慢和应用慢混在一起。

2. 日志报错很多，但监控波动不明显

这种场景往往说明：

错误量还没大到影响整体指标
或者报错集中在某个小流量路径

这时通常会：

从日志里抽关键请求样本
确认这批错误是否有共同路径
再用抓包看是不是某个特定下游链路异常

3. 客户端报超时，服务端日志说处理成功

这种问题特别适合三者一起看：

监控看整体 RT 是否抬升
日志看服务端是否真的处理完成
抓包看响应包是否真正回到客户端

如果服务端日志说成功、监控没有明显错误、但抓包显示回包没回来，那方向就更偏中间链路。

4. 某个下游偶发慢，导致整个链路抖动

这类问题单看任何一类证据都容易看偏：

监控只会看到整体 RT 波动
日志会看到部分调用超时
抓包可能看到少量响应晚回

只有把它们叠在一起，才容易看出是某个下游把整条链路拖慢了。

五、一套更实用的最小联动骨架

如果现在就要排一个复杂问题，可以按下面这套骨架走。

1. 先定时间窗

例如：

用户反馈 10:21 左右异常
监控显示 10:20:50 开始 RT 抬升

2. 再定关键对象

例如：

哪个接口
哪个节点
哪个下游
哪个客户端版本

3. 同步看三类证据

监控

RT
错误率
QPS
资源指标

日志

请求日志
错误日志
下游调用日志

抓包

请求是否发出
响应是否返回
是否有重传 / RST / 超时

4. 最后写成一句可执行结论

例如：

监控显示 10:21 开始 RT 抬升，日志显示下游 X 调用超时增加，抓包确认请求已发出但下游响应首包明显延后，问题更偏下游服务处理慢

这种结论比“系统慢了”有价值太多。

六、最容易踩的几个坑

1. 只看某一类证据就直接定根因

例如：

看见日志报错就说一定是应用 bug
看见重传就说一定是网络问题

这种判断都太快了。

2. 时间没对齐

如果监控时间、日志时间、抓包时间差着几秒甚至几分钟，结论很容易偏。

3. 监控只看平均值

很多问题不是平均值能解释的，而是：

某段时间尖刺
某几个接口异常
某个节点抖动

4. 抓包只抓一侧

如果要判断：

请求到没到
回包回没回

只抓单侧往往证据不够完整。

七、真实案例：为什么监控显示系统变慢，但真正先出问题的不是主服务

场景

一个业务接口在高峰时段突然变慢。
现场第一判断是：

主服务性能不够

因为监控上最直观的现象是：

接口 RT 抬升
错误率略升

执行

我没有直接去看主服务代码，而是先按三类证据同步看。

监控

先看见的是：

RT 从 10:21 开始明显抬高
主服务 CPU 并不高
但某个下游依赖的 RT 同时间开始抖动

日志

日志里主服务最明显的错误不是自身报错，而是：

下游调用超时增加

抓包

抓包进一步确认：

主服务发往下游的请求正常发出
下游响应不是不回，而是明显晚回
没有明显建连异常，问题更像下游处理慢

现象

三类证据一叠，结论就很清楚了：

主服务只是被拖慢
最早异常点不在主服务本身
真正先抖动的是下游依赖

排查

继续往下查后，定位到下游服务在高峰时段线程池耗尽，导致响应排队变长。

如果只看主服务监控，很容易得出“主服务慢”的结论。
如果只看日志，也可能只看到“调用超时”，但不清楚是不是网络问题。
而抓包把“请求正常发出、响应晚回”这层边界切清楚了。

修复

最终修复动作也很明确：

优先处理下游线程池和处理能力问题
再复看主服务 RT 是否恢复
将这类依赖抖动场景加入专项监控和回归

这个案例很典型地说明：

三者联动的价值，不是看更多信息，而是让“最早异常点”浮出来。

八、怎么把三者联动沉淀成长期能力

更合适的做法是固定几个动作：

先用监控定时间窗，不先盲翻日志
先对齐时间线，再对齐结论
抓包只在需要切边界时介入，不滥抓
结论必须能同时解释监控、日志和抓包现象

如果一条结论只能解释其中一类证据，通常说明还没收住。

九、写在最后

日志、抓包、监控三者联动排障，真正重要的不是把所有数据都看一遍，而是用它们互相校验，逐步排除误判。

说到底，它们各自最适合做的事情很清楚：

监控定时间窗
日志定处理链路
抓包定网络与协议边界

只要这三步走稳，很多原本看起来很复杂的故障，其实会快很多落到真正异常的那一层。