测试平台-07-测试平台的测试报告系统设计

发表于 2021-08-19 分类于测试平台本文字数： 2.8k 阅读时长 ≈ 10 分钟

做测试平台时，报告系统最开始都容易被理解成：

一张结果列表
一个成功失败统计
一页执行日志

从页面功能上看，这样已经像是“有报告了”。

但只要平台真正服务到多人协作，报告很快就会暴露几个典型问题：

只能看到失败，却看不到失败现场
同样的失败反复出现，但没有聚合视角
结果页能看，问题却没法复现
一次执行结束后，环境、参数、证据很快丢失
项目负责人问“这轮回归到底值不值得拦发布”，报告给不出结论

所以测试平台里的报告系统，本质上不是“结果展示页”，而是：

把一次执行变成可追溯、可解释、可复盘的证据资产。

这篇文章就只讲这个问题：

测试平台的测试报告系统到底该怎么设计，才不至于后面越看越像日志仓库、越用越没有决策价值。

一、报告系统最容易被做轻的，不是样式，而是报告对象

很多平台早期做报告，最容易直接把“任务执行结果”当成报告本身：

成功
失败
耗时
日志链接

这当然是一部分，但远远不够。

因为一份真正有价值的测试报告，至少要能回答下面几件事：

这次到底测了什么
在什么上下文里测的
结果为什么是这样
失败有没有证据链
这次结果和上次比有没有异常变化
这次执行对发布决策意味着什么

也就是说，报告系统里的“对象”不应该只有一个执行结果，而应该至少包含：

执行概览
运行上下文
证据集合
用例维度结果
聚合趋势结果
结论与风险判断

二、报告系统真正难的，不是展示结果，而是还原现场

很多测试平台里的报告页看起来很丰富：

有统计卡片
有通过率
有日志按钮
有附件下载

但一旦真的要定位问题，最终还是会回到：

Jenkins 控制台
执行机目录
共享盘截图
群消息里的临时补充说明

这说明报告没有真正承接“现场还原”。

更关注的是报告能不能把一次执行的现场最小闭环保存下来，至少包括：

1. 执行上下文

例如：

任务定义版本
实际执行参数
环境快照
执行节点
触发来源

2. 结果细节

例如：

用例级结果
步骤级结果
错误信息
开始结束时间

3. 证据链

例如：

原始日志
关键截图
录屏
请求响应片段
设备或浏览器信息

4. 结论信息

例如：

本轮失败主要集中在哪类问题
是否属于环境性失败
是否命中已知问题
是否影响发布判断

如果这些东西没有进报告，平台其实还没有真正“沉淀结果”，只是把运行产物换了个地方展示。

三、更推荐的一套报告系统分层

如果现在从 0 到 1 做测试平台报告系统，更倾向至少把它分成下面几层。

1. 执行报告层

负责回答：

这一次执行发生了什么

这是最基础的一层，关注单次执行。

2. 用例结果层

负责回答：

这次执行里哪些用例通过、失败、跳过
失败发生在哪一步
相比上次有没有状态变化

3. 证据资产层

负责沉淀：

日志
截图
录屏
抓包
附件

这层最好不要只存一个路径，而要有结构化索引。

4. 趋势聚合层

负责回答：

最近 7 天哪些任务稳定、哪些开始飘
同一类失败有没有反复出现
通过率变化是否和环境或版本有关

5. 结论与风险层

负责回答：

这轮执行值不值得拦发布
哪些失败该看
哪些失败可以归为环境或已知问题

这层如果没有，报告就很难服务到发布和管理动作。

四、报告系统不要只吃“最终状态”，最好保留结构化过程

很多平台一开始存报告，最容易只存一个最终结果：

status=success
duration=325
log_url=...

这种方式做列表页够了，但后面会很快碰到上限。

因为真正的测试执行过程通常不是一个点，而是一条线：

哪个阶段开始
哪个步骤卡住
哪个依赖报错
哪个恢复动作发生过
哪个产物在失败前生成

所以更推荐报告系统至少保留三层结构化信息：

1. 执行级

存：

总状态
总耗时
执行上下文
汇总指标

2. 节点级或步骤级

存：

阶段名称
状态变化
时间点
异常摘要

3. 证据级

存：

类型
采集时间
来源模块
路径或对象地址

这样后面才能做：

时间线还原
相同问题聚合
部分失败解释

五、报告系统最值得补的，不是图表，而是可比性

做报告会花很多时间做：

饼图
柱状图
趋势图

这些当然有用，但如果报告系统没有“可比性”，图再多也只是展示。

更在意的是，报告能不能支持下面这些对比：

本次和上次相比，通过率差了多少
哪些失败是新增失败
哪些失败是连续失败
同一分支和不同环境下结果有什么差异
同一类错误最近是不是集中上升

因为报告真正的价值，不在于“这次是多少”，而在于：

为什么这次和过去不一样。

六、最小可执行实践：第一版报告系统怎么落

如果现在从 0 到 1 做一版测试平台报告系统，更适合优先落下面这些对象。

1. 一张执行报告主表

最少包括：

execution_id
task_id
status
start_time
end_time
duration_ms
trigger_source
env_snapshot_version
summary

它回答的是“本次执行整体情况是什么”。

2. 一张步骤或用例结果表

例如：

report_case_result

记录：

case 标识
状态
耗时
错误摘要
重试次数

3. 一张证据索引表

例如：

report_artifact

记录：

证据类型
采集时间
来源
存储地址
所属执行或所属 case

4. 一张异常归因或标签表

例如：

report_issue_tag

用来标：

环境问题
已知缺陷
脚本问题
产品缺陷
外部依赖异常

这样后面趋势聚合才有抓手。

5. 报告页固定有 4 个区块

执行概览
失败明细
证据区
趋势与对比区

第一版不用把图做得太花，但这 4 块最好先立住。

七、现场观察点：一份报告“看不出价值”时先查哪几件事

如果一份报告用了几次以后，仍然要回头翻原始日志，通常会先看下面这几个问题。

1. 上下文是否缺失

例如：

不知道本次跑的是哪个版本
不知道用了哪套环境
不知道是谁触发的

2. 失败是否不可解释

例如：

只看到 assert failed
没有步骤信息
没有关键输入输出

3. 证据是否散落

例如：

日志在一处
截图在另一处
报告页没有统一入口

4. 缺少对比能力

例如：

无法知道失败是不是新问题
无法知道本轮是否明显变差

5. 缺少归因和结论

例如：

明明失败很多，但不知道哪些最值得处理
管理者只能看见红绿灯，看不见风险结构

八、真实项目里最容易踩的 6 个坑

1. 把 Jenkins 原始日志直接当报告

短期能用，长期不可检索、不可聚合、不可比较。

2. 报告只保留最终状态

最后只能知道“失败了”，却不知道“怎么失败的”。

3. 证据没有索引能力

附件很多，但谁也找不到关键证据。

4. 报告不存环境快照和参数快照

出了问题没法还原现场。

5. 报告没有区分新增失败和已知失败

一轮回归看上去全红，实际真正新增问题可能只有两个。

6. 趋势只做图，不做解释

报告页能看到波动，却不知道该不该行动。

九、真实案例型段落：一次“报告看起来很红”的回归，真正新增问题并不多

场景

某次版本回归结束后，平台报告页一眼看过去失败很多。

最初的判断是：

这一版质量不行
发布要先停

但研发和测试同时都觉得不对，因为现场感知并没有这么糟。

执行

于是现场没有直接盯总通过率，而是先做了 4 组拆分：

把失败按新增失败和连续失败拆开
把失败按环境问题、已知缺陷、业务缺陷拆标签
查失败 case 的证据链是否完整
对照上一轮同分支报告看变动点

现象

拆完以后发现：

总失败数确实多
但大部分都是历史已知问题
还有一部分是同一个环境波动引起的批量假失败

真正新增、且影响主流程的失败只有 3 个。

排查

继续看失败证据，发现平台原先的报告页有两个明显缺陷：

只看总失败数，不区分新增还是延续
报告虽然挂了附件，但没有做结构化归因

这导致所有失败被平铺到一起，视觉上很吓人，但决策价值很低。

修复

最后做了 4 个动作：

报告首页增加“新增失败”“连续失败”“环境性失败”分组
用例结果支持继承历史失败标签
报告页补最近三次结果对比
结论区增加“建议拦截/建议放行但跟踪/建议忽略”三级判断

修完之后，同样一轮回归，团队能更快识别真正要阻断发布的风险。

十、测试平台报告系统的一个判断标准

判断一个平台报告系统做得成不成熟，通常不会先看：

页面好不好看
图表是不是很多

更看下面几件事：

它能不能还原单次执行现场
它能不能把证据收成结构化资产
它能不能做历史比较和新增失败识别
它能不能把结果翻译成风险判断

如果这些做不到，所谓报告系统本质上还是：

一个结果列表页。

真正成熟的测试平台报告系统，不只是告诉你“这轮有多少红”，而是：

告诉你哪些红值得管、为什么会红、下一步该怎么判断和处理。