Android稳定性-13-Android 长稳测试怎么做：时长、压力、场景与判断标准

发表于 2026-01-26 分类于 Android稳定性本文字数： 8.3k 阅读时长 ≈ 30 分钟

长稳测试经常被简单理解为“设备连续跑很多小时”。这种理解太粗。长稳真正要看的是时间带来的变化：内存是否缓慢增长，线程和句柄是否累积，温度是否漂移，周期任务是否堆积，日志是否膨胀，系统服务是否在多次休眠唤醒后进入坏状态。

这一篇讨论 Android 长稳怎么设计时长、压力、场景和判断标准。案例是一台智能电视，要求连续播放、投屏、待机唤醒和应用切换 72 小时。

一、长稳测的是趋势

长稳不是把短测拉长。短测关注功能是否马上坏，长稳关注系统状态随时间是否变坏。一个应用运行 10 分钟正常，运行 48 小时后 PSS 增长 600MB、binder 线程增长、温度上升导致掉帧，这就是长稳价值。

因此长稳必须有周期采样。没有趋势数据，只在最后抓一次 bugreport，很难判断异常是逐步累积还是突然触发。

二、时长按风险阶段选择

24 小时适合日常版本筛查，48 小时适合 Beta 冻结前观察资源趋势，72 小时或更长适合 RC 前确认低频问题。不是每个版本都需要 168 小时，时长要和版本阶段、设备数量、问题密度匹配。

如果 4 小时内已经出现重复系统重启，继续跑 72 小时意义不大。先修基础问题，再进入长稳。

三、场景要有生活节律

长稳不应该让设备一直停在一个页面。真实用户会播放、暂停、切后台、锁屏、联网、断网、接外设、待机、唤醒。电视项目中可以设计白天 12 小时播放和应用切换，夜间 8 小时待机唤醒，凌晨进行日志归档和轻量 Monkey。

生活节律能暴露周期任务、资源释放和状态恢复问题。一直循环一个视频可能只测到播放器，不一定测到系统协作。

四、完整案例：电视 72 小时长稳

项目安排 6 台电视，2 台主线型号连续视频播放和频道切换，2 台投屏加蓝牙音箱，1 台低内存型号做应用切换，1 台做待机唤醒。每 10 分钟采样 CPU、内存、温度、进程数、fd、线程数和网络状态，每 6 小时抓一次 bugreport。

第 53 小时，低内存设备出现 launcher 重启。趋势显示某视频应用 PSS 每小时增长约 18MB，fd 从 320 增到 1100，最后被 LMK 杀死后桌面恢复异常。问题不是 53 小时突然发生，而是从第 8 小时开始已经有斜率。

五、采样命令

长稳采样要轻量，不能因为采样本身把设备压坏。下面是常用命令。

adb shell date
adb shell uptime
adb shell dumpsys meminfo --oom > sample/meminfo_$(date +%s).txt
adb shell dumpsys cpuinfo > sample/cpuinfo_$(date +%s).txt
adb shell cat /proc/meminfo > sample/proc_meminfo.txt
adb shell ls /proc/$(pidof system_server)/fd | wc -l
adb shell ps -A -T | wc -l
adb shell dumpsys thermalservice > sample/thermal.txt
adb shell dumpsys battery > sample/battery.txt

六、长稳压力不要过度失真

长稳可以有压力，但压力要贴近目标用户。一直满 CPU、满 I/O 的 72 小时更像高负载，不是普通长稳。长稳压力应当来自业务持续运行和周期打断，例如视频播放、导航、蓝牙连接、网络切换、待机唤醒。

如果需要高负载长稳，应当单独标注，不要和常规长稳混成一个结论。

七、资源趋势阈值

长稳阈值不能只写“无 crash”。建议给 PSS、fd、线程、温度、存储、日志大小、重启次数和关键服务存活设置观察线。观察线不一定立即阻断，但触发后必须分析斜率和来源。

例如 system_server PSS 持续上升但未崩溃，也应进入风险；应用 fd 持续增长可能在更长周期触发崩溃；温度长期接近降频线会影响用户体验。

八、中断处理

设备离线、断电、网络中断、脚本崩溃都可能中断长稳。方案要规定中断是否重跑、是否续跑、如何扣除时间。

如果设备离线 3 小时还把整段算作通过，结论会失真。如果只是日志上传服务失败，但设备业务仍在运行，可以保留任务并补抓证据。关键是规则提前写明。

九、结果表

长稳报告要用趋势表，不只是通过率。

指标	起始	24h	48h	72h	判断
system_server PSS	420MB	438MB	455MB	461MB	正常波动
视频 App PSS	310MB	580MB	910MB	崩溃前 1.2GB	疑似泄漏
fd 数	320	610	920	1100	持续增长
温度	38C	45C	47C	46C	可接受
重启	0	0	0	0	未发生

十、常见误判

误判一：跑满时长就通过。没有趋势和关键路径校验，跑满只能说明设备没有完全死掉。

误判二：长稳越长越好。基础问题未修时，长任务只会重复收集已知异常。

误判三：只看最后状态。长稳问题往往从中间斜率开始，最后状态可能已经被重启掩盖。

误判四：把脚本中断当产品问题，或把产品卡死当脚本中断。需要心跳和系统日志区分。

十一、检查清单

是否定义时长和版本阶段关系。
是否设计业务节律和待机唤醒。
是否有周期采样。
是否保留中间 bugreport。
是否有中断规则。
是否区分常规长稳和高负载长稳。
是否输出趋势而不是单点结果。

十二、输出物模板

长稳任务摘要
run_id: <id>
start/end: <time>
duration_valid: <hours>
scenario_cycle: <play/sleep/wakeup/switch>
sampling_interval: <minutes>
critical_events: <reboot/anr/crash/black_screen>
trend_findings: <memory/fd/thread/temp/storage>
interruptions: <time/reason/deducted>
conclusion: <pass/risk/fail>

执行前的基线记录

长稳测试在真正开跑之前，需要先建立一份基线。基线不是形式化截图，而是把资源、进程、温度、后台任务和休眠唤醒当时的状态固定下来：版本指纹、启动时间、账号状态、网络状态、权限状态、后台进程、外设连接、温度、电量和存储余量都要留下。后续出现资源泄漏、低频重启、后台退化或待机唤醒失败时，分析人员才能判断这是任务引入的变化，还是设备在任务开始前已经处于异常边缘。

基线记录还有一个作用，是让不同轮次可比较。比如同样是连续播放、投屏、待机唤醒和应用切换循环，第一轮在 38 摄氏度、Wi-Fi 满格、存储剩余 20GB 下运行，第二轮在 47 摄氏度、弱信号、存储剩余 800MB 下运行，两轮结果不能直接并排解释。稳定性结论最怕把不同条件下的数据混在一起，最后看似样本很多，实际每个样本都不可比。

执行同学可以把基线做成固定脚本，但脚本输出不能只扔在日志目录里。日报和问题单至少要引用基线摘要：设备、版本、环境、关键开关和任务入口。系统稳定性与资源模块负责人拿到问题后，第一眼应当知道这台设备在进入任务时是否健康。

运行中的心跳和哨兵

长稳测试运行时间越长，越需要心跳。心跳不是简单打印“脚本还活着”，而是周期性确认资源、进程、温度、后台任务和休眠唤醒仍在执行预期工作。对于连续播放、投屏、待机唤醒和应用切换循环，心跳可以包含前台包名、关键服务状态、网络连通性、最近一次业务动作、最近一次截图和设备在线状态。

哨兵指标用于提前发现坏趋势。PSS、fd、线程数、温度和有效运行时长如果连续多个采样点朝坏方向移动，就算还没有形成最终失败，也应当在日报里标黄。很多严重问题不是突然出现的，而是先有资源斜率、恢复变慢、错误码增多、温度升高或重试次数变多。把这些早期信号记下来，问题定位会比事后翻大包快很多。

心跳还负责区分脚本失败和产品失败。脚本进程退出但设备业务仍正常，这通常是自动化问题；设备输入无响应、服务异常、日志出现系统错误，而脚本只是最后感知到失败，这就不能简单归为脚本问题。稳定性执行需要这种区分，否则真实风险会被噪声掩盖。

异常发生后的第一分钟

资源泄漏、低频重启、后台退化或待机唤醒失败刚出现后的第一分钟最宝贵。此时日志还没有被大量覆盖，系统状态也没有被人为操作改变。执行规范里应该要求先保存现场，再尝试恢复。现场保存包括截图、录屏、logcat 时间窗口、周期采样、趋势图、bugreport 和 dropbox、前台 Activity、关键 dumpsys、进程列表和任务控制台输出。

不要一看到异常就重启设备。重启确实能让下一轮继续跑，但也会抹掉很多状态：进程关系、窗口层级、binder 等待、音频焦点、网络连接、挂载状态都可能消失。除非设备已经完全无法连接，否则先抓证据，再恢复任务。

第一分钟还要写清人工动作。如果执行者点击了返回、插拔了外设、切了网络、接了电话，必须写进记录。否则研发看到日志时会误以为这些动作来自系统或脚本。稳定性现场的每个人工干预都可能改变因果链。

复跑策略和样本解释

复跑不是机械重复。长稳测试的复跑至少分三类：同条件复跑、缩小范围复跑、交叉条件复跑。同条件复跑确认问题是否稳定；缩小范围复跑找最小触发路径；交叉条件复跑判断是否和设备、区域、外设、网络或温度相关。

如果问题只出现一次，也不能直接删除。要看它的影响面和证据强度。一次资源泄漏、低频重启、后台退化或待机唤醒失败如果涉及系统重启、数据丢失、核心能力不可恢复，就值得进入风险列表；反过来，某个轻微 UI 问题重复很多次，也未必比一次系统级异常更严重。样本解释要看影响，不只看次数。

复跑结论建议写成四种状态：已稳定复现、条件相关复现、暂未复现但证据有效、证据不足关闭。这样比简单写“复现/不复现”更适合稳定性问题，因为许多问题本来就依赖长时间、环境和状态累积。

问题单应该怎么写

长稳测试发现的问题单要让系统稳定性与资源模块负责人能直接进入分析。标题里写清现象和场景，不要只写“稳定性异常”。正文第一段说明版本、设备、任务、轮次、发生时间和用户可见影响；第二段列出复现路径或触发条件；第三段给证据索引；最后写当前恢复方式和复跑状态。

证据索引要比附件名更细。比如 bugreport.zip 太粗，应该写 bugreport.zip: SYSTEM LOG 14:32:10 附近出现关键异常，或者 traces.txt: main thread waiting binder reply。这样研发不用先花半小时找入口。

问题单也要避免过度归因。测试侧可以提出怀疑方向，例如周期采样、趋势图、bugreport 和 dropbox显示异常集中在某个服务，但不要在证据不足时直接写“某模块代码错误”。好的问题单给入口、给影响、给条件、给证据，让模块负责人继续收敛。

数据看板该展示什么

长稳测试的数据看板不应只展示通过率。通过率适合管理视角，但稳定性分析还需要异常类型分布、设备分布、版本分布、任务分布、发生时间分布和复跑状态。特别是PSS、fd、线程数、温度和有效运行时长，最好用趋势线展示，而不是只给平均值。

看板的第一屏可以放阻断问题、今日新增、长期未关闭、复跑失败和环境异常。第二屏放任务覆盖和资源趋势。第三屏放证据归档完整率。如果证据归档完整率很低，异常数量再漂亮也不值得相信。

对于智能电视项目，还建议加一个“现场相似度”字段：实验室条件和用户现场差多少。比如车载高温、海外运营商、仓库弱网、会议室蓝牙密集环境都可能让实验室结论偏离真实使用。看板能提醒团队补足这些差距。

和研发评审时的沟通方式

稳定性问题评审不要从“谁负责”开始，而要从时间线开始。把连续播放、投屏、待机唤醒和应用切换循环中的动作、系统状态、异常日志和用户现象按时间排出来，先让所有人看到同一条线。时间线清楚后，再讨论可能归属。

评审时测试需要坚持两件事：一是用户影响不能被技术细节稀释，二是证据边界不能被猜测扩大。比如资源泄漏、低频重启、后台退化或待机唤醒失败可能只出现一次，但如果用户需要重启才能恢复，它就是高风险；同时，如果现有日志只能说明某服务异常，就不要把根因直接推到驱动。

每次评审结束都要留下动作项：谁看哪份日志，谁补哪轮复跑，谁提供带符号栈，谁确认是否已有补丁，下一次同步时间是什么。没有动作项的评审只是在交换观点，不会推动版本风险下降。

发布决策中的表达边界

长稳测试最终服务于发布决策，但测试结论要有边界。可以说“在这些设备、这些场景、这些时长内未再触发同类异常”，不要把结论扩大到所有用户、所有地区和所有外设。边界写得清楚，项目管理才能知道哪些风险已覆盖，哪些风险只是接受。

如果仍有未关闭问题，报告要写影响路径、触发条件、规避方式、修复计划和灰度建议。比如资源泄漏、低频重启、后台退化或待机唤醒失败只在某个低频组合出现，且有明确规避，可以进入有条件发布；如果它影响核心路径且无恢复手段，就应当暂停。稳定性测试不是替项目做商业决定，而是把技术风险讲清楚。

发布会上的表达要避免两种极端：一种是只报喜，另一种是把所有观察项都说成阻断。成熟做法是把问题分成阻断、需签字接受、继续观察和已关闭四类，并给出证据链接。

现场经验：小问题如何变成大事故

很多智能电视事故最初都像小问题。一次偶发日志写入失败、一次音频焦点没有恢复、一次网络切换后重试慢、一次进程被杀后页面空白，如果只看单次，都容易被认为影响有限。但稳定性测试要问的是：它在长时间、多设备、多人使用和边界条件下会不会放大。

例如连续播放、投屏、待机唤醒和应用切换循环中某个后台任务失败，如果用户马上重试能恢复，风险不高；如果失败会堆积队列、占满存储、拖慢启动，几小时后就可能演变成系统级问题。稳定性分析要关心这种链式后果。

所以报告里最好写“后续影响”。异常发生后系统是否自动恢复，是否留下脏状态，是否影响下一轮任务，是否需要清数据或重启，是否会让日志和存储继续膨胀。这些内容比单纯描述弹窗更有决策价值。

把经验固化成资产

每轮长稳测试结束后，都应该沉淀三类资产。第一类是可复用脚本，包括任务启动、采样、异常抓取和清理。第二类是案例库，包括资源泄漏、低频重启、后台退化或待机唤醒失败的时间线、证据和根因。第三类是规则库，包括准入条件、停止条件、阈值和误判处理。

资产沉淀的关键是可检索。问题标题、模块、设备、版本、关键词、日志特征和修复提交都要能被搜索。下一次出现相似日志时，测试和研发可以迅速查到历史案例，而不是重新走一遍弯路。

稳定性体系不是靠某一次大测试建立的，而是靠每个版本把经验留下来。趋势基线和长稳案例库如果能持续积累，团队会越来越快地区分新问题、已知问题、环境问题和可接受风险。

资源不足时怎么取舍

长稳测试经常会遇到资源不足：设备不够、实验室窗口不够、研发希望尽快出结论、项目又希望覆盖所有风险。这个时候不能平均砍任务，而要按影响路径取舍。优先保留主场景 48 小时趋势和关键设备采样，其次保留能暴露系统级异常的组合，最后才考虑低风险抽样。

取舍要写进报告，而不是在执行过程中口头决定。比如取消了低风险外设的长时间抽样，就要说明取消原因、影响风险和后续补偿方式。否则最终结论会显得很完整，实际缺了一块关键覆盖。

资源取舍还要考虑问题密度。如果某一类任务连续发现严重问题，就应暂停同类扩展覆盖，把资源转向复跑和归因。继续铺更多样本只会制造重复问题单。

环境陷阱和规避方式

长稳测试最容易被环境影响。供电和散热、供电、温度、账号、服务端、外设、SIM 卡、AP、蓝牙对端都会改变结果。环境问题不能简单算失败，也不能完全忽略，必须单独标记并判断它是否接近用户现场。

规避方式是给环境也建立版本。AP 型号和固件、SIM 卡运营商、蓝牙耳机版本、测试账号状态、服务端环境、供电方式都要可追溯。一次同一资源趋势异常如果只在某个 AP 固件下出现，它仍然可能是真问题，只是触发条件更窄。

实验室还要避免多个任务互相污染。高吞吐下载会影响弱网测试，蓝牙密集扫描会影响回连，日志服务器慢会拖垮归档脚本。环境共享时要有排班和隔离。

如何把一次失败拆成时间线

稳定性分析最有用的中间产物是时间线。时间线从任务开始写起，包含环境状态、脚本动作、系统日志、用户现象、自动恢复、人工干预和证据文件。对于长稳中断或低频异常，时间线能把表面现象和底层证据放在一起。

写时间线时不要只摘异常行。异常前的 30 秒到 5 分钟往往更重要：是否刚切网络，是否刚进入后台，是否刚触发温控，是否刚完成大量 I/O，是否刚接入外设。很多根因藏在异常之前。

时间线也是跨团队沟通的共同语言。应用、Framework、HAL、驱动、测试和项目管理可以围绕同一条线讨论，而不是各自拿着不同日志争论。

验收口径要避免含混

长稳测试的验收口径要写得足够具体。不能只写“无严重问题”，而要写哪些问题算阻断、哪些算重大、哪些进入观察。重启、资源泄漏或不可恢复退化这类现象如果影响核心路径、需要重启、造成数据丢失或安全风险，应直接进入阻断。

验收口径还要包含恢复能力。有些边界条件下短暂失败可以接受，但必须自动恢复，并且恢复时间、用户提示和数据完整性满足要求。没有恢复定义，开发和测试会对同一个现象给出完全不同的判断。

口径最好在测试前评审，而不是报告时临时解释。测试前确认口径，执行中按口径分类，报告时才不会因为标准变化产生争议。

从个人经验到团队流程

早期项目里，长稳测试往往依赖少数有经验的人。熟悉的人知道该看哪个日志、遇到待机唤醒失败该抓什么证据、哪些现象可能是环境问题。但这种经验如果不固化，换人或多项目并行时很快失效。

团队流程可以从三个小动作开始：固定命令模板、固定目录结构、固定问题单字段。不要一开始就追求大平台，先让每个人产出的证据长得一样。证据一致后，自动化归档、报表和趋势分析才有基础。

当流程跑顺后，再把历史问题沉淀为规则。例如某类日志关键字出现时自动补抓 dumpsys，某类任务失败时自动暂停同设备后续任务，某类环境异常自动从有效时长中扣除。

复盘时要问的五个问题

每轮长稳测试结束后，复盘不要只问发现了几个问题。更值得问五个问题：第一，哪些风险被验证充分；第二，哪些风险没有覆盖；第三，哪些异常证据不足；第四，哪些任务性价比低；第五，下一轮应该调整什么。

如果一次测试发现很多趋势类问题，但大部分无法复现、证据缺失、归类混乱，那么复盘重点不是庆祝发现数量，而是修执行体系。稳定性测试的成熟度体现在下一轮能不能更快、更准、更少噪声。

复盘还应把关闭的问题拿出来看。关闭原因是修复、规避、误报、环境问题还是风险接受？不同关闭原因代表不同质量含义。把它们混在一起，会让版本风险被低估。

一份更细的现场记录示例

下面是长稳测试现场记录可以达到的细度：10:00 设备刷入版本并校验指纹；10:12 完成账号和网络准备；10:20 采集基线；10:30 启动主场景 48 小时趋势和关键设备采样；11:05 第一次出现轻微错误码但自动恢复；11:40 触发重启、资源泄漏或不可恢复退化；11:41 自动抓取长稳中断或低频异常；11:45 人工确认用户现象；12:10 同条件复跑开始。

这样的记录看起来麻烦，但它能节省后续大量沟通成本。研发不用追问“当时在干什么”，测试不用反复回忆，项目也能判断任务中断时间是否计入有效时长。

现场记录还可以帮助识别非产品问题。如果每次失败都发生在日志上传、脚本重启或服务端维护附近，就要先清理环境变量，再判断产品风险。

和后续章节的衔接

长稳测试不是孤立能力。它需要和问题分析、日志分析、报告系统、设备管理和准入评审连接起来。前面执行得再好，如果后面没有问题跟踪和趋势复盘，稳定性风险仍然会在版本末期反复出现。

建议把本文中的任务、命令、表格和模板都接入统一编号。任务编号进入日志目录，日志目录进入问题单，问题单进入日报和准入报告。链路一旦打通，稳定性测试就不再是单次活动，而是版本质量管理的一部分。

对于长期项目，最有价值的不是某一轮结论，而是跨版本对比。趋势类问题是否减少，同一资源趋势异常是否还在同类设备出现，待机唤醒失败是否有新变体，这些问题只有连续数据才能回答。

验收示例：通过不是一句话

长稳验收可以写得很短，也可以写得足够有用。短句通常是“本轮通过”，但这句话对后续复盘帮助有限。更好的写法是说明覆盖了哪些时长、采样、趋势、中断，触发过哪些轻微异常，哪些异常完成复跑，哪些风险仍然保留。

例如可以写：“本轮覆盖 6 台设备、3 类任务、2 个区域配置，未发生系统重启、Watchdog 和核心路径不可恢复；发现 2 个资源趋势异常，其中 1 个已由补丁验证关闭，1 个因证据不足进入下一轮观察。”这样的表述既能给项目结论，也保留了边界。

验收示例还要写未覆盖项。未覆盖不是失败，但必须透明。资源不足、环境缺失、外设未到、服务端不可用都可以成为未覆盖原因，只要报告里说明影响和补偿计划。

日志索引要能被别人复查

日志索引的最小要求，是别人不问作者也能找到入口。目录名包含版本、设备、任务和时间；文件名包含日志类型；索引文件写明异常时间、关键字、相关进程和有效运行时长。如果只有一堆压缩包，后续复盘会非常痛苦。

建议每个任务目录放一个 index.md。第一页写任务摘要，第二页列证据文件，第三页列异常时间点。异常时间点不要只写本地时间，还要写设备时间和日志时间，避免电脑时区、设备时区、脚本时间不一致造成误读。

对于跨天任务，日志切分更重要。长时间 logcat、周期 dumpsys、截图、录屏和 bugreport 要按时间段归档。问题单引用证据时，直接指向某个时间段，而不是让研发下载几十 GB 文件慢慢找。

为什么要保留失败样本

长稳失败样本即使暂时无法复现，也有保留价值。它可能包含未来同类问题的第一条线索。很多系统问题第一次出现时证据不完整，第二次出现时如果能对照历史样本，就能更快发现共同条件。

保留失败样本不等于把所有问题都长期挂起。可以给样本设置状态：待复跑、证据不足、历史参考、已合并到主问题。这样问题列表不会膨胀，案例库也不会丢失。

失败样本还可以反过来改进测试。某次资源趋势异常如果发现日志缺少关键 dumpsys，下一轮就把该 dumpsys 加入自动抓取；如果发现环境条件没记录，下一轮就把环境字段加入基线。

面向新人的执行说明

如果一个新人接手长稳，他需要的不是厚厚的理论文档，而是一张能照着执行的说明：准备哪些设备，检查哪些环境，运行哪些命令，看到什么现象停下来，异常后先抓什么，最后把文件放到哪里。

执行说明要避免隐含知识。例如“确认网络正常”太含糊，应写成“连接指定 AP，ping 网关 20 次，记录丢包和平均延迟”；“抓日志”也太含糊，应写清 logcat buffer、bugreport、dumpsys 和专项日志。

新人能稳定执行，说明流程已经足够工程化。只有资深同学才能跑通的稳定性测试，很难支撑多版本、多设备和长周期交付。

最后一次人工复核

在报告发出前，建议做一次人工复核。复核内容包括：front matter 或文档元信息是否正确，任务数据是否和日志目录一致，异常数量是否和问题单一致，有效运行时长是否能追到原始证据，禁用或不推荐的结论表述是否被清理。

人工复核不是重复分析，而是检查报告有没有给决策者造成误导。比如把中断时间算入有效时长，把环境失败算成通过，把未复跑问题写成已关闭，都会直接影响发布判断。

复核还要看文字是否过度模板化。稳定性报告和文章一样，应该围绕本轮真实风险展开。结构可以固定，内容不能空泛。每个结论都要让读者知道它来自哪次任务、哪个样本和哪份证据。

结论前的针对性复核

长稳最后要看曲线形态，而不是只看终点。平稳曲线、阶梯式上涨、周期性尖峰、重启后回落、夜间异常抬升，代表完全不同的问题方向。复核时应把关键指标和任务节律放在同一张时间轴上，看看异常是否和播放、待机、唤醒、上传日志或脚本维护窗口重合。曲线解释清楚，长稳结论才有说服力。

验收时再多看一眼

长稳验收还要保留原始采样文件，不能只保留截图后的趋势图。趋势图方便阅读，但原始数据方便复算和排查采样错误。若某个指标触发风险，报告应说明采样命令、采样间隔、缺失点数量和是否发生设备离线。这样研发才能判断曲线可信度。

有效样本的最后确认

如果长稳中发生自动重启，还要判断重启是否掩盖了资源趋势。重启后的内存和线程会回落，看起来曲线变好，但这不代表问题消失。报告应把重启前后的趋势分段展示，并单独说明重启原因、重启前最后一个采样点和重启后业务是否自动恢复。

长稳结论还要写明有效业务时间。设备亮着但业务停了、脚本活着但播放停止、网络断开但仍计时，都不能完整计入有效时长。有效时长比墙上时间更能说明测试质量。

收尾样本补充

长稳样本还要标记设备维护窗口，避免把人工清理、日志打包和实验室巡检造成的暂停误算为产品稳定运行。

十三、小结

长稳的重点是时间维度。它把短测看不到的累积问题、周期问题和恢复问题暴露出来。

好的长稳报告一定有场景、有采样、有趋势、有中断说明。只有时长没有趋势，结论很难支撑发布判断。