SIP测试-08-语音链路中的失败码、日志和证据应该怎么统一分析

发表于 2020-07-17 分类于 SIP测试本文字数： 2.4k 阅读时长 ≈ 9 分钟

做语音项目排障时，最常见的一种混乱场面是这样的：

SIPp 同学盯着 trace_err
FreeSWITCH 同学盯着服务器日志
机器人同学盯着业务日志
测试同学拿着截图和录屏

然后每个人都能给出一句听起来有道理的话：

有很多 480
FreeSWITCH 没明显打满
识别服务也不是每次都超时
页面最后就是没对上

但这些信息放在一起，团队还是不知道：

到底是哪一层先出问题
当前看到的是主因还是后果
下一步该先查哪里

所以语音链路排障最难的地方，不是“缺日志”，而是证据太散，没有统一分析方法。

这篇文章就想把这个问题收束一下：

语音链路里的失败码、日志、截图、录屏和时间线，到底该怎么放在一起看，才更接近真正的定位。

一、排障最怕的，不是信息少，而是每层各说各话

语音链路一旦出问题，常见证据通常至少有这些：

SIP 失败码
SIPp trace_err / trace_msg
FreeSWITCH 日志
机器人或 AIBus 日志
识别与对话服务日志
页面截图
录屏
最终通话结果或回写结果

这些证据本来都很有用，但如果各看各的，就会很快变成噪音。

例如：

480 很多，不一定说明就是被叫不可达
页面没变，不一定说明识别没成功
FreeSWITCH CPU 不高，也不代表它在当前问题里没有责任

所以更倾向的一条原则是：

所有证据都必须先回到同一通电话、同一条时间线、同一份场景上下文里再解释。

二、更适合的第一步：先按“单通电话证据包”收证

比起一开始看一堆总体日志，更适合先把单通电话的证据收完整。

一个更有价值的单通证据包，通常包括：

证据	作用
`Call-ID` / 会话 ID	贯穿所有日志的主索引
SIPp 报文日志	看注册、呼叫、失败码、时序
FreeSWITCH 日志	看桥接、路由、会话处理
机器人 / AIBus 日志	看是否真正进入处理流程
识别 / 对话日志	看业务处理是否成功、是否超时
截图 / 录屏	看用户视角最终发生了什么
结果回写或报告	看最终状态归类

这一步很关键。
因为如果连“同一通电话”的证据都还没串起来，后面的所有推理都很容易跑偏。

三、更常用的一套分析顺序：先失败码，再时间线，再上下文证据

现场排障时，通常不会一上来就看所有图。
更常用的顺序是：

1. 先看失败码或最终外显结果

例如：

403
407
480
486
500
503

或者：

页面没变化
结果断言失败
回写状态异常

这一步的价值是先给问题做第一层粗分类。

2. 再看 SIP 层时间线

先回答：

是注册失败
还是呼叫建立失败
还是呼叫建立了，但后面业务没走通

3. 再看服务上下文

也就是继续确认：

机器人有没有真正接到电话
识别有没有真正收到音频
对话是不是已经响应
回写是不是已经落地

4. 最后再用截图、录屏补用户视角

截图和录屏不是主线，但很重要。
因为它们经常能帮你回答一句很关键的话：

系统日志说自己“成功”了，但用户真正看到的到底是什么

四、失败码到底该怎么分析，才不容易误判

更不建议把失败码当成“结论”，而是把它当成“下一跳提示”。

例如：

失败码/现象	更适合的理解
`401/407`	先区分是正常鉴权挑战，还是认证流程没走完
`403`	有请求但被明确拒绝，先看权限、ACL、策略
`480`	目标暂不可达，先看注册、路由、被叫侧状态
`486`	被叫忙或资源被占，先看会话占用和收尾是否异常
`500/503`	服务端或链路承压异常，先看同时间窗口的服务和资源
页面无反馈	不一定是识别失败，也可能是上下文不对或后续技能没触发

失败码真正有价值的时候，不是你知道它叫什么，而是你知道看到它以后先去排哪一层。

五、更适合的一套统一记录表

为了避免现场越看越乱，通常会维护这样一张记录表：

电话样本	SIP 结果	机器人日志	识别/对话日志	页面/录屏	初步判断
call-1	`200 -> BYE` 正常	已接听	识别、对话正常	页面正确	正常样本
call-2	`480`	无接听日志	无	无变化	更像接入或路由问题
call-3	SIP 正常	已接听	识别无返回	页面无反馈	更像识别链路问题
call-4	SIP 正常	已接听	识别正常、对话慢	页面延迟反馈	更像对话长尾问题

这张表的价值是，它强迫团队把每类证据拉回同一个上下文，不再各说各话。

六、为什么截图、录屏和日志必须一起看

会觉得：

有日志就够了

这在语音项目里通常不成立。
因为语音测试特别容易出现一种情况：

系统某一层说自己“已经成功”
但用户看到的结果并不符合预期

例如：

识别到了关键词，但页面没跳转
对话服务返回了结果，但设备没真正播报
日志有命中，但场景上下文已经错乱

所以更倾向这样理解三类证据：

日志回答“系统认为自己做了什么”
截图回答“当前页面或设备状态是什么”
录屏回答“整个过程实际是怎么发生的”

少任意一个，证据链都可能断。

七、真实案例型段落：一次“高频 `480` + 页面无反馈，最后发现不是一层问题”的统一分析

场景

一次语音回归里，团队遇到了一类很烦的问题：

部分电话样本高频出现 480
另外一部分电话虽然 SIP 层看起来通过了，但页面还是没有进入预期状态

最开始，现场很自然地分成了两派：

一派认为是 SIP 路由问题
一派认为是机器人业务问题

执行

当时我们手里其实已经有很多信息：

SIPp trace_err
FreeSWITCH 日志
机器人服务日志
设备截图
部分录屏

但一开始没有把它们串成同一套证据包，所以看起来一直像是两个独立问题。

现象

继续整理以后发现：

一部分 480 样本里，机器人侧根本没有接到电话，明显是前面就失败了
另一部分 SIP 正常的样本里，机器人其实已经接听，也有处理日志，但页面没进入预期技能

也就是说，现场其实混着两类问题：

一类是接入层问题
一类是业务执行层问题

排查

我当时做的不是继续放大某一类日志，而是先按样本拆包：

先按 Call-ID 把每通电话证据串起来
先把 480 类样本和 SIP 正常类样本分开
对每一类样本分别看：
- SIP 是否到达机器人
- 机器人是否进入处理
- 页面是否有最终反馈
再把截图和录屏补到对应样本上

拆开以后问题就清楚多了：

480 样本更像前置路由或被叫状态问题
SIP 正常但页面无反馈的样本，更像业务分支没有命中或上下文错乱

修复

修复动作自然也分成两条线：

针对 480 样本，先处理路由、被叫状态和前置接入问题
针对 SIP 正常但页面错误的样本，回到机器人业务日志和场景恢复逻辑继续排

这个案例很典型，因为它说明：

同一次回归里的“失败”，很可能不是同一种失败。
如果不先统一证据分析，很容易把两个问题混成一个问题。

八、如果要给语音链路证据分析定 5 条规则，可以这样定

先按单通电话收证，再看总体趋势
先看失败码和最终结果，再看中间日志
所有日志都必须回到同一条时间线和同一个 Call-ID
截图、录屏和日志必须相互印证，不能只信单一证据
先解释最早出现的异常，不先解释最后的现象

这 5 条规则看起来很朴素，但对语音项目特别有效。

结语

语音链路排障最难的地方，不是没有失败码，也不是没有日志，而是：

失败码、日志、截图、录屏都在
但没有被统一成一套证据分析方法

真正有效的做法通常很简单：

按单通电话建证据包
用 Call-ID 把时间线串起来
先解释最早的异常
再判断哪些是主因，哪些只是后果

做到这一层，语音项目里的排障质量会明显提升，很多原本“说不清”的问题也会开始变得可复盘、可收敛。