Android稳定性-12-业务遍历测试：比 Monkey 更接近真实用户路径的稳定性验证

发表于 2026-01-24 分类于 Android稳定性本文字数： 8.4k 阅读时长 ≈ 31 分钟

业务遍历测试比 Monkey 更接近真实用户，因为它带着目标前进：打开应用、完成路径、校验状态、处理打断、恢复到可继续使用的界面。它不是单纯的 UI 自动化回归，也不是为了证明按钮能点，而是把高频用户路径放进稳定性周期里反复运行，观察状态是否会在多轮、多设备、多打断后变坏。

这一篇重点讲业务遍历如何设计。案例采用一款出行 App：登录后搜索目的地、开始导航、后台播放语音、接电话、切换网络、结束行程并查看历史记录。

一、业务遍历关注路径闭环

业务遍历的核心是闭环。一次路径不能只到“页面打开”，还要确认业务状态完成。例如导航路径要确认定位成功、路线生成、语音播报、前后台切换后仍能继续、结束后历史记录出现。

闭环让稳定性测试有了断言。Monkey 只能告诉你有没有崩，业务遍历还能告诉你系统是否保持了正确状态。

二、路径选择从用户频率和系统链路出发

选择路径时不要只看产品功能列表。高频路径、长链路路径、跨模块路径和容易被打断的路径优先。出行 App 的搜索导航路径会同时用到定位、网络、地图渲染、音频焦点、前台服务和通知，稳定性价值比单纯打开设置页高得多。

路径还要覆盖状态变化：首次登录和已登录、前台和后台、横竖屏、弱网和恢复、权限授予和撤销。业务路径越接近真实使用，越能发现状态机问题。

三、脚本不是越聪明越好

稳定性业务遍历脚本要稳定、可解释、可恢复。过度依赖坐标、过度自动纠错、失败后继续乱点，都会污染结果。脚本应该能在关键节点判断页面、业务数据和系统状态，失败时立即保存现场。

我更倾向于把脚本写成“步骤 + 断言 + 恢复”。每一步有明确等待条件，断言失败就截图、抓日志、记录节点，不把后面的路径继续跑成一团乱麻。

四、完整案例：导航路径 500 轮

案例项目要求验证导航核心路径在 500 轮循环中的稳定性。每轮包括冷启动 App、搜索固定目的地、选择路线、开始导航、后台 30 秒、模拟来电、回到导航、切换 Wi-Fi/蜂窝、结束导航、查看历史记录。

第 137 轮出现语音播报消失但页面仍在导航。日志显示来电结束后音频焦点没有重新申请，应用无 crash，系统无 ANR。如果只看崩溃率，这轮会被算作通过；业务断言发现了真实用户能感知的问题。

五、命令和采集模板

业务遍历通常由 UIAutomator、Appium、Maestro 或自研脚本驱动。无论工具是什么，ADB 侧的证据采集建议固定。

adb shell am force-stop com.example.travel
adb shell pm clear com.example.travel # 仅首次登录场景使用
adb shell appops set com.example.travel ACCESS_FINE_LOCATION allow
adb shell svc wifi enable
adb shell cmd statusbar expand-notifications
adb shell screencap -p /sdcard/step_start.png
adb pull /sdcard/step_start.png evidence/
adb shell dumpsys activity top > evidence/activity_top.txt
adb shell dumpsys audio > evidence/audio_focus.txt

六、断言分三层

第一层是 UI 断言，例如页面标题、按钮、列表项、弹窗。第二层是业务断言，例如路线生成、订单状态、播放状态、历史记录。第三层是系统断言，例如前台服务存在、通知存在、音频焦点恢复、定位 provider 正常。

只做 UI 断言会漏掉“页面看起来正常但业务状态错误”的问题。只做系统断言又容易脱离用户体验。三层结合，业务遍历才有稳定性价值。

七、打断场景要自然插入

真实用户不会在理想环境中使用 App。业务遍历应当插入来电、通知、锁屏、网络切换、权限弹窗、低电量提示、蓝牙连接、横竖屏、后台清理等打断。

打断不是随机砸进去，而是放在关键状态上。例如导航开始后插入来电，支付确认前切网络，视频录制中锁屏，文件上传中弱网。这样才能压到状态恢复逻辑。

八、数据准备和污染控制

业务遍历需要账号、测试数据、服务端环境和清理策略。账号被风控、测试订单堆积、历史记录过多、推荐内容变化，都会让脚本不稳定。

方案里要写清数据重置方式：使用固定测试账号还是轮换账号，服务端是否提供清理接口，失败轮次是否保留数据，下一轮如何恢复。没有数据治理，业务遍历很快会从稳定性测试变成环境维护。

九、失败分类

业务遍历失败不等于产品稳定性问题。可能是脚本定位失败、服务端接口超时、测试账号异常、设备离线、网络环境波动，也可能是真正的客户端或系统问题。

分类时看三点：失败是否影响真实用户路径，是否能在手工复现，系统日志是否有对应异常。分类清楚，研发才不会被脚本噪声淹没。

十、结果表

业务遍历的表格要体现轮次、节点和断言。

轮次	路径节点	断言失败	系统状态	结论
137	来电后回导航	语音未恢复	audio focus lost	产品问题
203	搜索目的地	接口 504	网络正常，服务端异常	环境/服务端
288	结束导航	历史记录缺失	数据库写入错误	产品问题
341	冷启动	元素未找到	页面已加载，脚本选择器过期	脚本问题

十一、常见误判

误判一：脚本跑完就代表路径正确。脚本如果没有业务断言，只能说明它点完了。

误判二：所有失败都算稳定性失败。服务端、账号、测试数据和脚本选择器都可能导致失败，需要分类。

误判三：业务遍历可以替代 Monkey。业务遍历覆盖深路径，Monkey 覆盖随机扰动，两者互补。

误判四：只保留最终截图。路径问题通常发生在前几个节点，必须保留步骤日志和关键 dumpsys。

十二、检查清单

路径是否包含业务闭环。
是否有 UI、业务、系统三层断言。
测试账号和数据是否可重置。
打断是否插入在关键状态。
失败时是否立即保存截图、日志和节点信息。
是否区分脚本、环境、服务端和产品问题。
是否能把失败轮次转成手工复现步骤。

十三、输出物模板

业务遍历失败记录
run_id: <id>
case: <business path>
round: <number>
step: <step name>
expected: <expected state>
actual: <actual state>
assertion: <ui/business/system>
interruption: <call/network/lock/none>
evidence: <screenshot/log/dumpsys>
classification: <product/script/env/server>
manual_reproduce: <yes/no>

执行前的基线记录

业务遍历测试在真正开跑之前，需要先建立一份基线。基线不是形式化截图，而是把用户路径、业务状态和系统能力当时的状态固定下来：版本指纹、启动时间、账号状态、网络状态、权限状态、后台进程、外设连接、温度、电量和存储余量都要留下。后续出现路径中断、状态丢失或恢复失败时，分析人员才能判断这是任务引入的变化，还是设备在任务开始前已经处于异常边缘。

基线记录还有一个作用，是让不同轮次可比较。比如同样是搜索目的地、开始导航、接电话、弱网恢复和结束行程，第一轮在 38 摄氏度、Wi-Fi 满格、存储剩余 20GB 下运行，第二轮在 47 摄氏度、弱信号、存储剩余 800MB 下运行，两轮结果不能直接并排解释。稳定性结论最怕把不同条件下的数据混在一起，最后看似样本很多，实际每个样本都不可比。

执行同学可以把基线做成固定脚本，但脚本输出不能只扔在日志目录里。日报和问题单至少要引用基线摘要：设备、版本、环境、关键开关和任务入口。业务测试与客户端负责人拿到问题后，第一眼应当知道这台设备在进入任务时是否健康。

运行中的心跳和哨兵

业务遍历测试运行时间越长，越需要心跳。心跳不是简单打印“脚本还活着”，而是周期性确认用户路径、业务状态和系统能力仍在执行预期工作。对于搜索目的地、开始导航、接电话、弱网恢复和结束行程，心跳可以包含前台包名、关键服务状态、网络连通性、最近一次业务动作、最近一次截图和设备在线状态。

哨兵指标用于提前发现坏趋势。轮次成功率、节点失败率和断言类型如果连续多个采样点朝坏方向移动，就算还没有形成最终失败，也应当在日报里标黄。很多严重问题不是突然出现的，而是先有资源斜率、恢复变慢、错误码增多、温度升高或重试次数变多。把这些早期信号记下来，问题定位会比事后翻大包快很多。

心跳还负责区分脚本失败和产品失败。脚本进程退出但设备业务仍正常，这通常是自动化问题；设备输入无响应、服务异常、日志出现系统错误，而脚本只是最后感知到失败，这就不能简单归为脚本问题。稳定性执行需要这种区分，否则真实风险会被噪声掩盖。

异常发生后的第一分钟

路径中断、状态丢失或恢复失败刚出现后的第一分钟最宝贵。此时日志还没有被大量覆盖，系统状态也没有被人为操作改变。执行规范里应该要求先保存现场，再尝试恢复。现场保存包括截图、录屏、logcat 时间窗口、步骤日志、截图、业务断言和 dumpsys、前台 Activity、关键 dumpsys、进程列表和任务控制台输出。

不要一看到异常就重启设备。重启确实能让下一轮继续跑，但也会抹掉很多状态：进程关系、窗口层级、binder 等待、音频焦点、网络连接、挂载状态都可能消失。除非设备已经完全无法连接，否则先抓证据，再恢复任务。

第一分钟还要写清人工动作。如果执行者点击了返回、插拔了外设、切了网络、接了电话，必须写进记录。否则研发看到日志时会误以为这些动作来自系统或脚本。稳定性现场的每个人工干预都可能改变因果链。

复跑策略和样本解释

复跑不是机械重复。业务遍历测试的复跑至少分三类：同条件复跑、缩小范围复跑、交叉条件复跑。同条件复跑确认问题是否稳定；缩小范围复跑找最小触发路径；交叉条件复跑判断是否和设备、区域、外设、网络或温度相关。

如果问题只出现一次，也不能直接删除。要看它的影响面和证据强度。一次路径中断、状态丢失或恢复失败如果涉及系统重启、数据丢失、核心能力不可恢复，就值得进入风险列表；反过来，某个轻微 UI 问题重复很多次，也未必比一次系统级异常更严重。样本解释要看影响，不只看次数。

复跑结论建议写成四种状态：已稳定复现、条件相关复现、暂未复现但证据有效、证据不足关闭。这样比简单写“复现/不复现”更适合稳定性问题，因为许多问题本来就依赖长时间、环境和状态累积。

问题单应该怎么写

业务遍历测试发现的问题单要让业务测试与客户端负责人能直接进入分析。标题里写清现象和场景，不要只写“稳定性异常”。正文第一段说明版本、设备、任务、轮次、发生时间和用户可见影响；第二段列出复现路径或触发条件；第三段给证据索引；最后写当前恢复方式和复跑状态。

证据索引要比附件名更细。比如 bugreport.zip 太粗，应该写 bugreport.zip: SYSTEM LOG 14:32:10 附近出现关键异常，或者 traces.txt: main thread waiting binder reply。这样研发不用先花半小时找入口。

问题单也要避免过度归因。测试侧可以提出怀疑方向，例如步骤日志、截图、业务断言和 dumpsys显示异常集中在某个服务，但不要在证据不足时直接写“某模块代码错误”。好的问题单给入口、给影响、给条件、给证据，让模块负责人继续收敛。

数据看板该展示什么

业务遍历测试的数据看板不应只展示通过率。通过率适合管理视角，但稳定性分析还需要异常类型分布、设备分布、版本分布、任务分布、发生时间分布和复跑状态。特别是轮次成功率、节点失败率和断言类型，最好用趋势线展示，而不是只给平均值。

看板的第一屏可以放阻断问题、今日新增、长期未关闭、复跑失败和环境异常。第二屏放任务覆盖和资源趋势。第三屏放证据归档完整率。如果证据归档完整率很低，异常数量再漂亮也不值得相信。

对于出行业务项目，还建议加一个“现场相似度”字段：实验室条件和用户现场差多少。比如车载高温、海外运营商、仓库弱网、会议室蓝牙密集环境都可能让实验室结论偏离真实使用。看板能提醒团队补足这些差距。

和研发评审时的沟通方式

稳定性问题评审不要从“谁负责”开始，而要从时间线开始。把搜索目的地、开始导航、接电话、弱网恢复和结束行程中的动作、系统状态、异常日志和用户现象按时间排出来，先让所有人看到同一条线。时间线清楚后，再讨论可能归属。

评审时测试需要坚持两件事：一是用户影响不能被技术细节稀释，二是证据边界不能被猜测扩大。比如路径中断、状态丢失或恢复失败可能只出现一次，但如果用户需要重启才能恢复，它就是高风险；同时，如果现有日志只能说明某服务异常，就不要把根因直接推到驱动。

每次评审结束都要留下动作项：谁看哪份日志，谁补哪轮复跑，谁提供带符号栈，谁确认是否已有补丁，下一次同步时间是什么。没有动作项的评审只是在交换观点，不会推动版本风险下降。

发布决策中的表达边界

业务遍历测试最终服务于发布决策，但测试结论要有边界。可以说“在这些设备、这些场景、这些时长内未再触发同类异常”，不要把结论扩大到所有用户、所有地区和所有外设。边界写得清楚，项目管理才能知道哪些风险已覆盖，哪些风险只是接受。

如果仍有未关闭问题，报告要写影响路径、触发条件、规避方式、修复计划和灰度建议。比如路径中断、状态丢失或恢复失败只在某个低频组合出现，且有明确规避，可以进入有条件发布；如果它影响核心路径且无恢复手段，就应当暂停。稳定性测试不是替项目做商业决定，而是把技术风险讲清楚。

发布会上的表达要避免两种极端：一种是只报喜，另一种是把所有观察项都说成阻断。成熟做法是把问题分成阻断、需签字接受、继续观察和已关闭四类，并给出证据链接。

现场经验：小问题如何变成大事故

很多出行业务事故最初都像小问题。一次偶发日志写入失败、一次音频焦点没有恢复、一次网络切换后重试慢、一次进程被杀后页面空白，如果只看单次，都容易被认为影响有限。但稳定性测试要问的是：它在长时间、多设备、多人使用和边界条件下会不会放大。

例如搜索目的地、开始导航、接电话、弱网恢复和结束行程中某个后台任务失败，如果用户马上重试能恢复，风险不高；如果失败会堆积队列、占满存储、拖慢启动，几小时后就可能演变成系统级问题。稳定性分析要关心这种链式后果。

所以报告里最好写“后续影响”。异常发生后系统是否自动恢复，是否留下脏状态，是否影响下一轮任务，是否需要清数据或重启，是否会让日志和存储继续膨胀。这些内容比单纯描述弹窗更有决策价值。

把经验固化成资产

每轮业务遍历测试结束后，都应该沉淀三类资产。第一类是可复用脚本，包括任务启动、采样、异常抓取和清理。第二类是案例库，包括路径中断、状态丢失或恢复失败的时间线、证据和根因。第三类是规则库，包括准入条件、停止条件、阈值和误判处理。

资产沉淀的关键是可检索。问题标题、模块、设备、版本、关键词、日志特征和修复提交都要能被搜索。下一次出现相似日志时，测试和研发可以迅速查到历史案例，而不是重新走一遍弯路。

稳定性体系不是靠某一次大测试建立的，而是靠每个版本把经验留下来。路径库和断言库如果能持续积累，团队会越来越快地区分新问题、已知问题、环境问题和可接受风险。

资源不足时怎么取舍

业务遍历测试经常会遇到资源不足：设备不够、实验室窗口不够、研发希望尽快出结论、项目又希望覆盖所有风险。这个时候不能平均砍任务，而要按影响路径取舍。优先保留核心用户路径和带断言的恢复路径，其次保留能暴露系统级异常的组合，最后才考虑低风险抽样。

取舍要写进报告，而不是在执行过程中口头决定。比如取消了低频设置路径循环，就要说明取消原因、影响风险和后续补偿方式。否则最终结论会显得很完整，实际缺了一块关键覆盖。

资源取舍还要考虑问题密度。如果某一类任务连续发现严重问题，就应暂停同类扩展覆盖，把资源转向复跑和归因。继续铺更多样本只会制造重复问题单。

环境陷阱和规避方式

业务遍历测试最容易被环境影响。测试账号和服务端数据、供电、温度、账号、服务端、外设、SIM 卡、AP、蓝牙对端都会改变结果。环境问题不能简单算失败，也不能完全忽略，必须单独标记并判断它是否接近用户现场。

规避方式是给环境也建立版本。AP 型号和固件、SIM 卡运营商、蓝牙耳机版本、测试账号状态、服务端环境、供电方式都要可追溯。一次同一节点失败如果只在某个 AP 固件下出现，它仍然可能是真问题，只是触发条件更窄。

实验室还要避免多个任务互相污染。高吞吐下载会影响弱网测试，蓝牙密集扫描会影响回连，日志服务器慢会拖垮归档脚本。环境共享时要有排班和隔离。

如何把一次失败拆成时间线

稳定性分析最有用的中间产物是时间线。时间线从任务开始写起，包含环境状态、脚本动作、系统日志、用户现象、自动恢复、人工干预和证据文件。对于业务断言失败，时间线能把表面现象和底层证据放在一起。

写时间线时不要只摘异常行。异常前的 30 秒到 5 分钟往往更重要：是否刚切网络，是否刚进入后台，是否刚触发温控，是否刚完成大量 I/O，是否刚接入外设。很多根因藏在异常之前。

时间线也是跨团队沟通的共同语言。应用、Framework、HAL、驱动、测试和项目管理可以围绕同一条线讨论，而不是各自拿着不同日志争论。

验收口径要避免含混

业务遍历测试的验收口径要写得足够具体。不能只写“无严重问题”，而要写哪些问题算阻断、哪些算重大、哪些进入观察。状态丢失、订单错误或音频不恢复这类现象如果影响核心路径、需要重启、造成数据丢失或安全风险，应直接进入阻断。

验收口径还要包含恢复能力。有些边界条件下短暂失败可以接受，但必须自动恢复，并且恢复时间、用户提示和数据完整性满足要求。没有恢复定义，开发和测试会对同一个现象给出完全不同的判断。

口径最好在测试前评审，而不是报告时临时解释。测试前确认口径，执行中按口径分类，报告时才不会因为标准变化产生争议。

从个人经验到团队流程

早期项目里，业务遍历测试往往依赖少数有经验的人。熟悉的人知道该看哪个日志、遇到路径中断该抓什么证据、哪些现象可能是环境问题。但这种经验如果不固化，换人或多项目并行时很快失效。

团队流程可以从三个小动作开始：固定命令模板、固定目录结构、固定问题单字段。不要一开始就追求大平台，先让每个人产出的证据长得一样。证据一致后，自动化归档、报表和趋势分析才有基础。

当流程跑顺后，再把历史问题沉淀为规则。例如某类日志关键字出现时自动补抓 dumpsys，某类任务失败时自动暂停同设备后续任务，某类环境异常自动从有效时长中扣除。

复盘时要问的五个问题

每轮业务遍历测试结束后，复盘不要只问发现了几个问题。更值得问五个问题：第一，哪些风险被验证充分；第二，哪些风险没有覆盖；第三，哪些异常证据不足；第四，哪些任务性价比低；第五，下一轮应该调整什么。

如果一次测试发现很多业务路径失败，但大部分无法复现、证据缺失、归类混乱，那么复盘重点不是庆祝发现数量，而是修执行体系。稳定性测试的成熟度体现在下一轮能不能更快、更准、更少噪声。

复盘还应把关闭的问题拿出来看。关闭原因是修复、规避、误报、环境问题还是风险接受？不同关闭原因代表不同质量含义。把它们混在一起，会让版本风险被低估。

一份更细的现场记录示例

下面是业务遍历测试现场记录可以达到的细度：10:00 设备刷入版本并校验指纹；10:12 完成账号和网络准备；10:20 采集基线；10:30 启动核心用户路径和带断言的恢复路径；11:05 第一次出现轻微错误码但自动恢复；11:40 触发状态丢失、订单错误或音频不恢复；11:41 自动抓取业务断言失败；11:45 人工确认用户现象；12:10 同条件复跑开始。

这样的记录看起来麻烦，但它能节省后续大量沟通成本。研发不用追问“当时在干什么”，测试不用反复回忆，项目也能判断任务中断时间是否计入有效时长。

现场记录还可以帮助识别非产品问题。如果每次失败都发生在日志上传、脚本重启或服务端维护附近，就要先清理环境变量，再判断产品风险。

和后续章节的衔接

业务遍历测试不是孤立能力。它需要和问题分析、日志分析、报告系统、设备管理和准入评审连接起来。前面执行得再好，如果后面没有问题跟踪和趋势复盘，稳定性风险仍然会在版本末期反复出现。

建议把本文中的任务、命令、表格和模板都接入统一编号。任务编号进入日志目录，日志目录进入问题单，问题单进入日报和准入报告。链路一旦打通，稳定性测试就不再是单次活动，而是版本质量管理的一部分。

对于长期项目，最有价值的不是某一轮结论，而是跨版本对比。业务路径失败是否减少，同一节点失败是否还在同类设备出现，路径中断是否有新变体，这些问题只有连续数据才能回答。

验收示例：通过不是一句话

业务遍历验收可以写得很短，也可以写得足够有用。短句通常是“本轮通过”，但这句话对后续复盘帮助有限。更好的写法是说明覆盖了哪些路径、断言、打断、数据，触发过哪些轻微异常，哪些异常完成复跑，哪些风险仍然保留。

例如可以写：“本轮覆盖 6 台设备、3 类任务、2 个区域配置，未发生系统重启、Watchdog 和核心路径不可恢复；发现 2 个业务状态异常，其中 1 个已由补丁验证关闭，1 个因证据不足进入下一轮观察。”这样的表述既能给项目结论，也保留了边界。

验收示例还要写未覆盖项。未覆盖不是失败，但必须透明。资源不足、环境缺失、外设未到、服务端不可用都可以成为未覆盖原因，只要报告里说明影响和补偿计划。

日志索引要能被别人复查

日志索引的最小要求，是别人不问作者也能找到入口。目录名包含版本、设备、任务和时间；文件名包含日志类型；索引文件写明异常时间、关键字、相关进程和失败节点。如果只有一堆压缩包，后续复盘会非常痛苦。

建议每个任务目录放一个 index.md。第一页写任务摘要，第二页列证据文件，第三页列异常时间点。异常时间点不要只写本地时间，还要写设备时间和日志时间，避免电脑时区、设备时区、脚本时间不一致造成误读。

对于跨天任务，日志切分更重要。长时间 logcat、周期 dumpsys、截图、录屏和 bugreport 要按时间段归档。问题单引用证据时，直接指向某个时间段，而不是让研发下载几十 GB 文件慢慢找。

为什么要保留失败样本

业务遍历失败样本即使暂时无法复现，也有保留价值。它可能包含未来同类问题的第一条线索。很多系统问题第一次出现时证据不完整，第二次出现时如果能对照历史样本，就能更快发现共同条件。

保留失败样本不等于把所有问题都长期挂起。可以给样本设置状态：待复跑、证据不足、历史参考、已合并到主问题。这样问题列表不会膨胀，案例库也不会丢失。

失败样本还可以反过来改进测试。某次业务状态异常如果发现日志缺少关键 dumpsys，下一轮就把该 dumpsys 加入自动抓取；如果发现环境条件没记录，下一轮就把环境字段加入基线。

面向新人的执行说明

如果一个新人接手业务遍历，他需要的不是厚厚的理论文档，而是一张能照着执行的说明：准备哪些设备，检查哪些环境，运行哪些命令，看到什么现象停下来，异常后先抓什么，最后把文件放到哪里。

执行说明要避免隐含知识。例如“确认网络正常”太含糊，应写成“连接指定 AP，ping 网关 20 次，记录丢包和平均延迟”；“抓日志”也太含糊，应写清 logcat buffer、bugreport、dumpsys 和专项日志。

新人能稳定执行，说明流程已经足够工程化。只有资深同学才能跑通的稳定性测试，很难支撑多版本、多设备和长周期交付。

最后一次人工复核

在报告发出前，建议做一次人工复核。复核内容包括：front matter 或文档元信息是否正确，任务数据是否和日志目录一致，异常数量是否和问题单一致，失败节点是否能追到原始证据，禁用或不推荐的结论表述是否被清理。

人工复核不是重复分析，而是检查报告有没有给决策者造成误导。比如把中断时间算入有效时长，把环境失败算成通过，把未复跑问题写成已关闭，都会直接影响发布判断。

复核还要看文字是否过度模板化。稳定性报告和文章一样，应该围绕本轮真实风险展开。结构可以固定，内容不能空泛。每个结论都要让读者知道它来自哪次任务、哪个样本和哪份证据。

结论前的针对性复核

业务遍历最后要回到用户视角复核。脚本可能显示所有步骤执行完毕，但用户真正关心的是路径有没有完成、状态有没有保留、失败后能不能继续。复核时可以随机抽取几轮录屏，从启动、操作、打断、恢复到退出完整看一遍。只看结构化日志容易漏掉声音、卡顿、提示语、页面空白和错误状态残留。

验收时再多看一眼

业务遍历的验收还要看失败后的用户提示。路径失败不可怕，真正危险的是失败没有提示、提示与状态不一致、用户重复操作后产生重复订单或脏数据。复核时应抽查错误提示、重试按钮、返回路径和后台任务状态，确认脚本看到的失败与用户实际看到的失败一致。

十四、小结

业务遍历把稳定性测试带回用户路径。它让“没有崩溃”之外的问题也能被看见，比如状态丢失、恢复失败、音频焦点错乱、订单状态异常。

做好业务遍历的关键不是写更多点击，而是选对路径、做好断言、管理数据、保存现场，并把失败分类讲清楚。