Android稳定性-15-Android 极限场景测试:低电量、弱网、存储满、冷热启动和频繁插拔
极限场景测试关注 Android 设备在边界条件下的恢复能力。低电量、弱网、存储满、冷热启动、频繁插拔、时间跳变、权限变化,这些场景不一定天天发生,但一旦处理不好,用户会看到黑屏、数据丢失、无法联网、应用反复崩溃或设备需要重启。
这一篇把极限场景拆成可执行的测试设计。案例是一台手持扫码终端,用于仓储现场,要求在低电、弱网、满存储和频繁 USB 扫码枪插拔下保持业务可恢复。
一、极限不是破坏设备
极限场景不是为了把设备弄坏,而是模拟用户现场会发生的边界。仓库里电量会低,Wi-Fi 会被货架遮挡,存储会被日志占满,扫码枪会被反复插拔,冷启动会发生在班次交接。
测试设计要可控、可恢复、可记录。不可控破坏只会产生争议。
二、低电量场景
低电量影响性能、后台策略、相机闪光灯、网络扫描、定位和充电行为。测试时要覆盖低电提醒、电量继续下降、插入充电器、拔出充电器和自动关机边界。
要记录 battery service、thermal、充电状态和业务恢复。扫码终端在 5% 电量下仍需完成当前单据保存,即使限制同步也不能丢数据。
三、弱网场景
弱网不只是断网。高延迟、丢包、DNS 失败、Wi-Fi 到蜂窝切换、 captive portal、AP 重启都会影响业务。
弱网测试要看重试、超时、离线缓存、恢复同步和用户提示。应用如果在网络恢复后仍停在失败状态,就属于恢复问题。
四、存储满场景
存储接近满会影响数据库写入、日志、相机、下载、安装、系统服务和 tombstone 保存。极限测试要分 90%、95%、98% 和真正写满。
注意保留安全空间,避免把设备压到无法抓日志。测试结束要有清理命令和恢复流程。
五、冷热启动
冷启动包含断电后启动、系统重启后首次启动、应用数据存在和数据清空两种状态。热启动关注后台恢复、进程被杀后恢复、锁屏后恢复。
极限场景下的启动要叠加低电、弱网、满存储或外设存在。单纯测启动时间属于性能,边界条件下能否进入可用状态才是稳定性。
六、频繁插拔
USB、耳机、SIM、SD 卡、蓝牙外设、扫码枪都可能被频繁插拔。插拔会触发驱动、权限、广播、挂载、音频路由和应用状态变化。
测试时要记录插拔次数、间隔、外设型号、系统广播和应用响应。频繁插拔后无法识别设备、音频路由错误或系统重启,都是典型风险。
七、完整案例:扫码终端
扫码终端在低电 8%、Wi-Fi 丢包 20%、存储 96% 满、USB 扫码枪每 30 秒插拔一次的条件下运行入库业务 2 小时。第 47 分钟应用提示上传失败,但本地单据保存成功;网络恢复后有 3 条单据未自动补传。
进一步查看数据库发现补传队列写入失败,原因是日志文件占满分区后 SQLite 提交异常。产品修复为日志限额和补传队列单独错误处理。这个案例说明极限场景常常是多个边界叠加后暴露。
八、命令样例
部分命令需要工程权限或实验室网络设备配合。量产验证中要避免永久改变用户数据。
1 | adb shell dumpsys battery set level 5 |
九、恢复标准
极限场景必须写恢复标准。低电插电后多久恢复同步,弱网恢复后多久重连,存储释放后是否继续下载,USB 插回后是否重新识别,重启后业务数据是否完整。
没有恢复标准,测试只能描述现象,无法判断是否可接受。
十、结果表
极限场景表要强调边界和恢复。
| 场景 | 边界条件 | 预期恢复 | 实际结果 | 结论 |
|---|---|---|---|---|
| 低电 | 5% 后插电 | 业务不中断,状态保存 | 正常 | 通过 |
| 弱网 | 丢包 30% 后恢复 | 60 秒内补传 | 3 条未补传 | 失败 |
| 满存储 | data 96% | 提示清理且不丢单 | 日志占满导致写入失败 | 阻断 |
| USB 插拔 | 200 次 | 自动识别扫码枪 | 第 143 次无响应 | 需复现 |
十一、常见误判
误判一:把极限场景当成不现实。用户现场往往比实验室更乱。
误判二:只看异常发生,不看恢复。很多边界允许短暂失败,但必须可恢复且不丢数据。
误判三:写满存储后抓不到日志。极限测试也要为证据保留空间。
误判四:只测单一边界。真实风险常来自低电、弱网、温升、外设叠加。
十二、检查清单
- 是否定义边界值和恢复值。
- 是否保留安全空间和清理方案。
- 是否记录外设型号、网络条件、电量和存储状态。
- 是否验证数据完整性。
- 是否覆盖边界解除后的自动恢复。
- 是否避免不可逆破坏。
十三、输出物模板
1 | 极限场景记录 |
执行前的基线记录
极限场景测试在真正开跑之前,需要先建立一份基线。基线不是形式化截图,而是把边界条件、恢复路径和数据完整性当时的状态固定下来:版本指纹、启动时间、账号状态、网络状态、权限状态、后台进程、外设连接、温度、电量和存储余量都要留下。后续出现低电、弱网、满存储或插拔后的不可恢复失败时,分析人员才能判断这是任务引入的变化,还是设备在任务开始前已经处于异常边缘。
基线记录还有一个作用,是让不同轮次可比较。比如同样是低电量、弱网、存储接近满和 USB 扫码枪频繁插拔,第一轮在 38 摄氏度、Wi-Fi 满格、存储剩余 20GB 下运行,第二轮在 47 摄氏度、弱信号、存储剩余 800MB 下运行,两轮结果不能直接并排解释。稳定性结论最怕把不同条件下的数据混在一起,最后看似样本很多,实际每个样本都不可比。
执行同学可以把基线做成固定脚本,但脚本输出不能只扔在日志目录里。日报和问题单至少要引用基线摘要:设备、版本、环境、关键开关和任务入口。现场质量与客户端负责人拿到问题后,第一眼应当知道这台设备在进入任务时是否健康。
运行中的心跳和哨兵
极限场景测试运行时间越长,越需要心跳。心跳不是简单打印“脚本还活着”,而是周期性确认边界条件、恢复路径和数据完整性仍在执行预期工作。对于低电量、弱网、存储接近满和 USB 扫码枪频繁插拔,心跳可以包含前台包名、关键服务状态、网络连通性、最近一次业务动作、最近一次截图和设备在线状态。
哨兵指标用于提前发现坏趋势。恢复时间、数据一致性、边界触发率和清理结果如果连续多个采样点朝坏方向移动,就算还没有形成最终失败,也应当在日报里标黄。很多严重问题不是突然出现的,而是先有资源斜率、恢复变慢、错误码增多、温度升高或重试次数变多。把这些早期信号记下来,问题定位会比事后翻大包快很多。
心跳还负责区分脚本失败和产品失败。脚本进程退出但设备业务仍正常,这通常是自动化问题;设备输入无响应、服务异常、日志出现系统错误,而脚本只是最后感知到失败,这就不能简单归为脚本问题。稳定性执行需要这种区分,否则真实风险会被噪声掩盖。
异常发生后的第一分钟
低电、弱网、满存储或插拔后的不可恢复失败刚出现后的第一分钟最宝贵。此时日志还没有被大量覆盖,系统状态也没有被人为操作改变。执行规范里应该要求先保存现场,再尝试恢复。现场保存包括截图、录屏、logcat 时间窗口、边界值记录、系统日志、业务数据和恢复截图、前台 Activity、关键 dumpsys、进程列表和任务控制台输出。
不要一看到异常就重启设备。重启确实能让下一轮继续跑,但也会抹掉很多状态:进程关系、窗口层级、binder 等待、音频焦点、网络连接、挂载状态都可能消失。除非设备已经完全无法连接,否则先抓证据,再恢复任务。
第一分钟还要写清人工动作。如果执行者点击了返回、插拔了外设、切了网络、接了电话,必须写进记录。否则研发看到日志时会误以为这些动作来自系统或脚本。稳定性现场的每个人工干预都可能改变因果链。
复跑策略和样本解释
复跑不是机械重复。极限场景测试的复跑至少分三类:同条件复跑、缩小范围复跑、交叉条件复跑。同条件复跑确认问题是否稳定;缩小范围复跑找最小触发路径;交叉条件复跑判断是否和设备、区域、外设、网络或温度相关。
如果问题只出现一次,也不能直接删除。要看它的影响面和证据强度。一次低电、弱网、满存储或插拔后的不可恢复失败如果涉及系统重启、数据丢失、核心能力不可恢复,就值得进入风险列表;反过来,某个轻微 UI 问题重复很多次,也未必比一次系统级异常更严重。样本解释要看影响,不只看次数。
复跑结论建议写成四种状态:已稳定复现、条件相关复现、暂未复现但证据有效、证据不足关闭。这样比简单写“复现/不复现”更适合稳定性问题,因为许多问题本来就依赖长时间、环境和状态累积。
问题单应该怎么写
极限场景测试发现的问题单要让现场质量与客户端负责人能直接进入分析。标题里写清现象和场景,不要只写“稳定性异常”。正文第一段说明版本、设备、任务、轮次、发生时间和用户可见影响;第二段列出复现路径或触发条件;第三段给证据索引;最后写当前恢复方式和复跑状态。
证据索引要比附件名更细。比如 bugreport.zip 太粗,应该写 bugreport.zip: SYSTEM LOG 14:32:10 附近出现关键异常,或者 traces.txt: main thread waiting binder reply。这样研发不用先花半小时找入口。
问题单也要避免过度归因。测试侧可以提出怀疑方向,例如边界值记录、系统日志、业务数据和恢复截图显示异常集中在某个服务,但不要在证据不足时直接写“某模块代码错误”。好的问题单给入口、给影响、给条件、给证据,让模块负责人继续收敛。
数据看板该展示什么
极限场景测试的数据看板不应只展示通过率。通过率适合管理视角,但稳定性分析还需要异常类型分布、设备分布、版本分布、任务分布、发生时间分布和复跑状态。特别是恢复时间、数据一致性、边界触发率和清理结果,最好用趋势线展示,而不是只给平均值。
看板的第一屏可以放阻断问题、今日新增、长期未关闭、复跑失败和环境异常。第二屏放任务覆盖和资源趋势。第三屏放证据归档完整率。如果证据归档完整率很低,异常数量再漂亮也不值得相信。
对于仓储终端项目,还建议加一个“现场相似度”字段:实验室条件和用户现场差多少。比如车载高温、海外运营商、仓库弱网、会议室蓝牙密集环境都可能让实验室结论偏离真实使用。看板能提醒团队补足这些差距。
和研发评审时的沟通方式
稳定性问题评审不要从“谁负责”开始,而要从时间线开始。把低电量、弱网、存储接近满和 USB 扫码枪频繁插拔中的动作、系统状态、异常日志和用户现象按时间排出来,先让所有人看到同一条线。时间线清楚后,再讨论可能归属。
评审时测试需要坚持两件事:一是用户影响不能被技术细节稀释,二是证据边界不能被猜测扩大。比如低电、弱网、满存储或插拔后的不可恢复失败可能只出现一次,但如果用户需要重启才能恢复,它就是高风险;同时,如果现有日志只能说明某服务异常,就不要把根因直接推到驱动。
每次评审结束都要留下动作项:谁看哪份日志,谁补哪轮复跑,谁提供带符号栈,谁确认是否已有补丁,下一次同步时间是什么。没有动作项的评审只是在交换观点,不会推动版本风险下降。
发布决策中的表达边界
极限场景测试最终服务于发布决策,但测试结论要有边界。可以说“在这些设备、这些场景、这些时长内未再触发同类异常”,不要把结论扩大到所有用户、所有地区和所有外设。边界写得清楚,项目管理才能知道哪些风险已覆盖,哪些风险只是接受。
如果仍有未关闭问题,报告要写影响路径、触发条件、规避方式、修复计划和灰度建议。比如低电、弱网、满存储或插拔后的不可恢复失败只在某个低频组合出现,且有明确规避,可以进入有条件发布;如果它影响核心路径且无恢复手段,就应当暂停。稳定性测试不是替项目做商业决定,而是把技术风险讲清楚。
发布会上的表达要避免两种极端:一种是只报喜,另一种是把所有观察项都说成阻断。成熟做法是把问题分成阻断、需签字接受、继续观察和已关闭四类,并给出证据链接。
现场经验:小问题如何变成大事故
很多仓储终端事故最初都像小问题。一次偶发日志写入失败、一次音频焦点没有恢复、一次网络切换后重试慢、一次进程被杀后页面空白,如果只看单次,都容易被认为影响有限。但稳定性测试要问的是:它在长时间、多设备、多人使用和边界条件下会不会放大。
例如低电量、弱网、存储接近满和 USB 扫码枪频繁插拔中某个后台任务失败,如果用户马上重试能恢复,风险不高;如果失败会堆积队列、占满存储、拖慢启动,几小时后就可能演变成系统级问题。稳定性分析要关心这种链式后果。
所以报告里最好写“后续影响”。异常发生后系统是否自动恢复,是否留下脏状态,是否影响下一轮任务,是否需要清数据或重启,是否会让日志和存储继续膨胀。这些内容比单纯描述弹窗更有决策价值。
把经验固化成资产
每轮极限场景测试结束后,都应该沉淀三类资产。第一类是可复用脚本,包括任务启动、采样、异常抓取和清理。第二类是案例库,包括低电、弱网、满存储或插拔后的不可恢复失败的时间线、证据和根因。第三类是规则库,包括准入条件、停止条件、阈值和误判处理。
资产沉淀的关键是可检索。问题标题、模块、设备、版本、关键词、日志特征和修复提交都要能被搜索。下一次出现相似日志时,测试和研发可以迅速查到历史案例,而不是重新走一遍弯路。
稳定性体系不是靠某一次大测试建立的,而是靠每个版本把经验留下来。极限场景库和清理脚本如果能持续积累,团队会越来越快地区分新问题、已知问题、环境问题和可接受风险。
资源不足时怎么取舍
极限场景测试经常会遇到资源不足:设备不够、实验室窗口不够、研发希望尽快出结论、项目又希望覆盖所有风险。这个时候不能平均砍任务,而要按影响路径取舍。优先保留会影响数据完整性的低电、弱网和满存储组合,其次保留能暴露系统级异常的组合,最后才考虑低风险抽样。
取舍要写进报告,而不是在执行过程中口头决定。比如取消了破坏性过强且不可恢复的边界,就要说明取消原因、影响风险和后续补偿方式。否则最终结论会显得很完整,实际缺了一块关键覆盖。
资源取舍还要考虑问题密度。如果某一类任务连续发现严重问题,就应暂停同类扩展覆盖,把资源转向复跑和归因。继续铺更多样本只会制造重复问题单。
环境陷阱和规避方式
极限场景测试最容易被环境影响。网络衰减器和存储余量、供电、温度、账号、服务端、外设、SIM 卡、AP、蓝牙对端都会改变结果。环境问题不能简单算失败,也不能完全忽略,必须单独标记并判断它是否接近用户现场。
规避方式是给环境也建立版本。AP 型号和固件、SIM 卡运营商、蓝牙耳机版本、测试账号状态、服务端环境、供电方式都要可追溯。一次同一边界失败如果只在某个 AP 固件下出现,它仍然可能是真问题,只是触发条件更窄。
实验室还要避免多个任务互相污染。高吞吐下载会影响弱网测试,蓝牙密集扫描会影响回连,日志服务器慢会拖垮归档脚本。环境共享时要有排班和隔离。
如何把一次失败拆成时间线
稳定性分析最有用的中间产物是时间线。时间线从任务开始写起,包含环境状态、脚本动作、系统日志、用户现象、自动恢复、人工干预和证据文件。对于极限场景恢复失败,时间线能把表面现象和底层证据放在一起。
写时间线时不要只摘异常行。异常前的 30 秒到 5 分钟往往更重要:是否刚切网络,是否刚进入后台,是否刚触发温控,是否刚完成大量 I/O,是否刚接入外设。很多根因藏在异常之前。
时间线也是跨团队沟通的共同语言。应用、Framework、HAL、驱动、测试和项目管理可以围绕同一条线讨论,而不是各自拿着不同日志争论。
验收口径要避免含混
极限场景测试的验收口径要写得足够具体。不能只写“无严重问题”,而要写哪些问题算阻断、哪些算重大、哪些进入观察。数据丢失、无法联网或必须重启这类现象如果影响核心路径、需要重启、造成数据丢失或安全风险,应直接进入阻断。
验收口径还要包含恢复能力。有些边界条件下短暂失败可以接受,但必须自动恢复,并且恢复时间、用户提示和数据完整性满足要求。没有恢复定义,开发和测试会对同一个现象给出完全不同的判断。
口径最好在测试前评审,而不是报告时临时解释。测试前确认口径,执行中按口径分类,报告时才不会因为标准变化产生争议。
从个人经验到团队流程
早期项目里,极限场景测试往往依赖少数有经验的人。熟悉的人知道该看哪个日志、遇到存储满后的写入失败该抓什么证据、哪些现象可能是环境问题。但这种经验如果不固化,换人或多项目并行时很快失效。
团队流程可以从三个小动作开始:固定命令模板、固定目录结构、固定问题单字段。不要一开始就追求大平台,先让每个人产出的证据长得一样。证据一致后,自动化归档、报表和趋势分析才有基础。
当流程跑顺后,再把历史问题沉淀为规则。例如某类日志关键字出现时自动补抓 dumpsys,某类任务失败时自动暂停同设备后续任务,某类环境异常自动从有效时长中扣除。
复盘时要问的五个问题
每轮极限场景测试结束后,复盘不要只问发现了几个问题。更值得问五个问题:第一,哪些风险被验证充分;第二,哪些风险没有覆盖;第三,哪些异常证据不足;第四,哪些任务性价比低;第五,下一轮应该调整什么。
如果一次测试发现很多边界恢复问题,但大部分无法复现、证据缺失、归类混乱,那么复盘重点不是庆祝发现数量,而是修执行体系。稳定性测试的成熟度体现在下一轮能不能更快、更准、更少噪声。
复盘还应把关闭的问题拿出来看。关闭原因是修复、规避、误报、环境问题还是风险接受?不同关闭原因代表不同质量含义。把它们混在一起,会让版本风险被低估。
一份更细的现场记录示例
下面是极限场景测试现场记录可以达到的细度:10:00 设备刷入版本并校验指纹;10:12 完成账号和网络准备;10:20 采集基线;10:30 启动会影响数据完整性的低电、弱网和满存储组合;11:05 第一次出现轻微错误码但自动恢复;11:40 触发数据丢失、无法联网或必须重启;11:41 自动抓取极限场景恢复失败;11:45 人工确认用户现象;12:10 同条件复跑开始。
这样的记录看起来麻烦,但它能节省后续大量沟通成本。研发不用追问“当时在干什么”,测试不用反复回忆,项目也能判断任务中断时间是否计入有效时长。
现场记录还可以帮助识别非产品问题。如果每次失败都发生在日志上传、脚本重启或服务端维护附近,就要先清理环境变量,再判断产品风险。
和后续章节的衔接
极限场景测试不是孤立能力。它需要和问题分析、日志分析、报告系统、设备管理和准入评审连接起来。前面执行得再好,如果后面没有问题跟踪和趋势复盘,稳定性风险仍然会在版本末期反复出现。
建议把本文中的任务、命令、表格和模板都接入统一编号。任务编号进入日志目录,日志目录进入问题单,问题单进入日报和准入报告。链路一旦打通,稳定性测试就不再是单次活动,而是版本质量管理的一部分。
对于长期项目,最有价值的不是某一轮结论,而是跨版本对比。边界恢复问题是否减少,同一边界失败是否还在同类设备出现,存储满后的写入失败是否有新变体,这些问题只有连续数据才能回答。
验收示例:通过不是一句话
极限场景验收可以写得很短,也可以写得足够有用。短句通常是“本轮通过”,但这句话对后续复盘帮助有限。更好的写法是说明覆盖了哪些边界值、恢复、数据完整性,触发过哪些轻微异常,哪些异常完成复跑,哪些风险仍然保留。
例如可以写:“本轮覆盖 6 台设备、3 类任务、2 个区域配置,未发生系统重启、Watchdog 和核心路径不可恢复;发现 2 个边界恢复失败,其中 1 个已由补丁验证关闭,1 个因证据不足进入下一轮观察。”这样的表述既能给项目结论,也保留了边界。
验收示例还要写未覆盖项。未覆盖不是失败,但必须透明。资源不足、环境缺失、外设未到、服务端不可用都可以成为未覆盖原因,只要报告里说明影响和补偿计划。
日志索引要能被别人复查
日志索引的最小要求,是别人不问作者也能找到入口。目录名包含版本、设备、任务和时间;文件名包含日志类型;索引文件写明异常时间、关键字、相关进程和清理记录。如果只有一堆压缩包,后续复盘会非常痛苦。
建议每个任务目录放一个 index.md。第一页写任务摘要,第二页列证据文件,第三页列异常时间点。异常时间点不要只写本地时间,还要写设备时间和日志时间,避免电脑时区、设备时区、脚本时间不一致造成误读。
对于跨天任务,日志切分更重要。长时间 logcat、周期 dumpsys、截图、录屏和 bugreport 要按时间段归档。问题单引用证据时,直接指向某个时间段,而不是让研发下载几十 GB 文件慢慢找。
为什么要保留失败样本
极限场景失败样本即使暂时无法复现,也有保留价值。它可能包含未来同类问题的第一条线索。很多系统问题第一次出现时证据不完整,第二次出现时如果能对照历史样本,就能更快发现共同条件。
保留失败样本不等于把所有问题都长期挂起。可以给样本设置状态:待复跑、证据不足、历史参考、已合并到主问题。这样问题列表不会膨胀,案例库也不会丢失。
失败样本还可以反过来改进测试。某次边界恢复失败如果发现日志缺少关键 dumpsys,下一轮就把该 dumpsys 加入自动抓取;如果发现环境条件没记录,下一轮就把环境字段加入基线。
面向新人的执行说明
如果一个新人接手极限场景,他需要的不是厚厚的理论文档,而是一张能照着执行的说明:准备哪些设备,检查哪些环境,运行哪些命令,看到什么现象停下来,异常后先抓什么,最后把文件放到哪里。
执行说明要避免隐含知识。例如“确认网络正常”太含糊,应写成“连接指定 AP,ping 网关 20 次,记录丢包和平均延迟”;“抓日志”也太含糊,应写清 logcat buffer、bugreport、dumpsys 和专项日志。
新人能稳定执行,说明流程已经足够工程化。只有资深同学才能跑通的稳定性测试,很难支撑多版本、多设备和长周期交付。
最后一次人工复核
在报告发出前,建议做一次人工复核。复核内容包括:front matter 或文档元信息是否正确,任务数据是否和日志目录一致,异常数量是否和问题单一致,清理记录是否能追到原始证据,禁用或不推荐的结论表述是否被清理。
人工复核不是重复分析,而是检查报告有没有给决策者造成误导。比如把中断时间算入有效时长,把环境失败算成通过,把未复跑问题写成已关闭,都会直接影响发布判断。
复核还要看文字是否过度模板化。稳定性报告和文章一样,应该围绕本轮真实风险展开。结构可以固定,内容不能空泛。每个结论都要让读者知道它来自哪次任务、哪个样本和哪份证据。
结论前的针对性复核
极限场景最后要确认设备已经恢复干净。低电模拟是否 reset,填充文件是否删除,网络代理或弱网规则是否关闭,外设状态是否复位,测试账号数据是否清理。极限测试留下的脏环境会污染下一轮任务,甚至让后续问题被误判为产品缺陷。清理记录应当和测试记录放在一起。
验收时再多看一眼
极限场景验收还要检查数据完整性。低电、弱网、满存储和插拔结束后,只看应用能重新打开是不够的;还要核对本地记录、上传队列、媒体文件、数据库事务和用户可见状态。很多极限问题不是当场崩溃,而是恢复后留下不一致数据。
极限场景验收还要检查数据完整性。低电、弱网、满存储和插拔结束后,只看应用能重新打开是不够的;还要核对本地记录、上传队列、媒体文件、数据库事务和用户可见状态。很多极限问题不是当场崩溃,而是恢复后留下不一致数据。
有效样本的最后确认
极限场景复核还要确认边界值真实生效。脚本设置了低电量,不代表系统所有策略都进入低电状态;网络工具显示丢包,不代表目标应用流量真的经过该链路;填充了共享存储,也不代表 data 分区达到目标水位。
因此每个边界动作之后都要用系统命令反查状态。电量看 battery service,网络看接口和连接日志,存储看 df 和应用写入结果,外设看系统广播和设备节点。边界没有生效的轮次不能算入有效样本。
收尾样本补充
极限场景完成后,建议保留一台设备不清理立即进入短业务遍历,观察边界解除后是否还有残留影响。很多问题在边界当下没有暴露,却会在下一次启动、下一次同步、下一次外设连接时出现。这个追加小循环成本很低,但能发现不少恢复不彻底的问题。
边界复测的补充规则
极限场景的复测不应只重复失败动作,还要降低一个边界档位再跑一次。比如 98% 满存储失败后,补跑 95% 和 90%;弱网 30% 丢包失败后,补跑 10% 和正常网络。这样能判断问题是尖峰边界,还是恢复逻辑本身有缺陷。
这条规则能帮助团队把偶发边界和系统性缺陷分开处理。
也便于复盘。
十四、小结
极限场景测试看的是边界下的韧性。系统可以降级,可以提示用户,可以延迟任务,但不能无声失败、丢数据或需要用户猜怎么恢复。
把边界、动作、恢复和数据完整性写清楚,极限测试才会从“折腾设备”变成发布前的重要防线。