SIP测试-06-语音交互场景如何设计自动化验证

发表于 2020-07-03 分类于 SIP测试本文字数： 2.6k 阅读时长 ≈ 9 分钟

一提到语音交互测试，第一反应都是人工执行：

拿一台设备
播一段音频
看机器人有没有识别出来
再盯页面、日志和后台结果

这种方式在规模很小时还能接受。
但只要进到真实项目，马上就会碰到几个非常现实的问题：

一条指令测完了，下一条还要重新手动操作
同一条语音要反复测多轮，人工很难保持一致
失败时没有完整现场，只能靠回忆
只看“识别对没对”不够，还要知道日志里到底走到哪一步
语音测试经常不是一句话，而是一整段交互流程

所以语音交互自动化真正难的地方，从来不是“把音频播出去”，而是：

怎么把一段真实语音交互变成一条可重复执行、可自动断言、可留证复盘的测试链。

这篇文章就想讲这件事。

一、语音交互自动化最容易被低估的，是“场景编排”

第一次做语音测试自动化时，最容易把问题理解成：

只要把文本转成语音
再把语音播给设备
最后看识别结果就行

这当然是最表层的一步，但真实项目里，大多数语音交互都不是“单句直出”。

更常见的情况是：

前面要先有静音
再唤醒设备
再留一小段等待时间
再播主指令
再等待系统处理
最后可能还要发返回首页或结束动作

也就是说，测试对象不是“一段文本”，而是“一段场景序列”。

如果没有这层场景编排，你就会很快遇到两个问题：

测试看起来能跑，但每次播报节奏不一致
失败以后很难判断是识别问题、等待时间不够，还是后续流程没跟上

二、更适合把一条语音验证拆成模板序列

为了让语音测试可重复，通常不会直接保存“一行文案 -> 一段音频”。
更稳定的方式是把一条场景拆成模板序列。

例如：

1	静音 -> 唤醒词 -> 等待 -> 主指令 -> 等待 -> 返回指令 -> 静音

这种模板化设计的价值很大：

唤醒词可以统一维护
等待时间可以按设备或场景调优
返回动作可以避免场景串联污染
同一套模板可以复用到多条语音指令

如果把它写成更接近执行的结构，通常会像这样：

片段	作用
静音	清理上一个场景影响
唤醒词	进入可接收指令状态
等待	给系统留反应时间
主指令	真正业务输入
结束等待	给识别和对话留处理时间
返回动作	把设备恢复到初始状态

这一步看起来简单，但它几乎决定了后面自动化是否稳定。

三、语音交互自动化里，比“识别文本”更重要的是证据链

语音自动化如果只盯着一个目标：

识别结果是不是等于预期文本

这个目标当然重要，但如果只做到这一层，测试依然不够工程化。

因为真实项目里，你经常还需要回答：

是不是确实把音频播出去了
机器人有没有真正进入处理流程
日志里是否命中了预期指令或技能
页面或设备状态有没有切到预期结果
如果失败了，失败发生在识别前、识别后，还是执行后

所以更倾向的证据链通常是：

音频文件与播放动作
设备侧日志
页面或设备截图
可选录屏
最终断言结果

只有这几样放在一起，语音自动化结果才真正有复盘价值。

四、更常用的一套最小执行骨架

如果是新的语音交互场景，通常会按下面顺序搭最小自动化链路。

阶段 1：单场景单指令验证

先确认：

模板序列能跑通
音频能正常播放
设备日志能抓到

阶段 2：加入断言

再确认：

识别日志里是否有关键结果
页面或设备状态是否符合预期

阶段 3：加入截图、录屏和报告

再确认：

失败现场是否能自动保留
结果是否能沉淀成报告

阶段 4：批量化执行

最后才确认：

多条语音指令是否能串行或批量稳定执行
场景切换是否会互相污染

这套节奏的核心在于：

先把单条做稳
再把证据链补齐
最后再追求批量化

五、更适合的一套目录结构

如果语音交互自动化是长期要维护的，通常不会把文件散落得到处都是。
一个更稳的结构通常像这样：

voice-case/
├── templates/
│   ├── wakeup.yaml
│   ├── default_scene.yaml
│   └── return_home.yaml
├── audio/
│   ├── generated/
│   └── assets/
├── cases/
│   ├── music_play.yaml
│   ├── weather_query.yaml
│   └── navigation.yaml
├── evidence/
│   ├── logs/
│   ├── screenshots/
│   └── videos/
└── report/

这样拆的好处很直接：

模板和具体用例分开
生成音频和原始素材分开
证据目录天然可归档
后面做批量回归不容易乱

六、更常用的断言方式，不是只看一句识别文本

语音交互自动化里，断言如果只靠“结果文本完全相等”，往往很脆。

更常见的断言组合通常是：

1. 日志关键字断言

确认：

指令是否被命中
技能或意图是否被正确识别
是否进入了预期处理分支

2. 页面或设备状态断言

确认：

页面是否切到目标状态
设备界面是否有预期反馈

3. 时间断言

确认：

响应是否超时
某一步是否明显慢于预期

4. 失败保护断言

确认：

一旦日志为空、页面无变化或命中错误分支，立即留证并结束场景

这套组合比单一文本比对更接近真实项目。

七、语音交互自动化里最容易踩的几个坑

1. 等待时间写死

这类问题非常常见。
在一台设备上跑得过，换另一台设备就开始失败。

2. 用例之间互相污染

上一条指令没回到首页，下一条就开始播放，最后结果完全不可解释。

3. 只有结果，没有现场

失败后只有一句“断言失败”，但没有日志、截图、录屏，后面很难复盘。

4. 断言过于单一

只盯识别文本，很容易把页面状态错、技能跳错、系统分支跑偏这类问题漏掉。

八、真实案例型段落：一次“同一条语音时好时坏，最后发现不是识别模型问题”的排查

场景

一次语音交互自动化回归里，同一条指令在连续多轮执行时表现很不稳定：

有时能成功识别并进入预期技能
有时完全没反应
有时日志里有识别结果，但页面状态不对

团队一开始最自然的怀疑是：

识别模型波动
或者语音素材质量不稳定

执行

当时自动化链路已经有基础能力：

文本转音频
播放给设备
抓取日志
根据识别结果做断言

但证据链还不够完整，尤其是：

没有稳定的截图节点
场景结束后恢复动作也不够明确

现象

继续观察后发现一个非常关键的模式：

并不是识别结果都错
很多失败发生在“上一条场景没有完全收尾”之后
下一条指令虽然播出去了，但设备并不一定处在可接收指令的正确状态

排查

我当时没有继续纠结识别模型，而是把排查顺序改成：

先看每轮执行前设备是否回到统一初始状态
再看唤醒词和主指令之间等待时间是否足够
再看日志中是否已经进入错误技能或错误页面
最后才去看识别结果本身

这一轮排下来，真正的问题不是识别模型，而是：

用例之间恢复动作不稳定
唤醒后等待时间在部分设备上不够
结果导致同一条语音在不同轮次命中了不同上下文

修复

修复动作分成 3 步：

把“返回首页”或“恢复初始状态”写进模板序列
调整唤醒词后的等待时间，不再写死为过短值
在关键节点补截图和日志断言，先确认设备所处上下文

修完以后，波动明显下降。
这个案例最直接的提醒是：

语音交互自动化里，很多看起来像识别问题的波动，实际是场景编排和状态恢复问题。

九、更希望语音交互自动化最后输出什么

如果要定义一套语音交互自动化的结果，更希望它最终输出的是：

哪些场景稳定通过
哪些场景存在高波动
失败主要发生在识别、页面状态还是场景恢复
每个失败场景是否有日志、截图、录屏和断言证据

这类输出比“这条语音识别对了没有”更有长期价值。
因为它能真正帮助团队做：

问题复盘
稳定性治理
批量回归
后续平台化建设

结语

语音交互场景自动化验证，真正要做的不是把语音播出去，而是把：

模板化场景
设备播放
日志断言
截图录屏
结果报告

这些动作串成一条稳定的工程链路。

只有这样，语音测试才不会一直停留在“人工测得出来”，而能真正进入“自动化、可复用、可回归”的阶段。