测试平台-08-测试平台如何接入Jenkins与告警

发表于 2021-08-26 分类于测试平台本文字数： 2.7k 阅读时长 ≈ 10 分钟

把测试平台接 Jenkins 这件事，最开始都理解成：

平台调一下 Jenkins Job
Jenkins 跑一条命令
失败了发个企业微信

从功能上看，这已经能“联通”了。

但只要平台真的开始承接提测、回归、发布前校验和巡检，问题会很快冒出来：

平台里显示运行中，Jenkins 其实已经失败了
Jenkins 成功了，但平台没有收回完整结果
一个问题被多条渠道重复告警，告警渠道很快就会失去敏感度
环境性失败和真实业务失败混在一起，消息没有决策价值
任务入口越来越多，但没人说得清到底该从平台触发还是从 Jenkins 触发

所以平台接 Jenkins 与告警，真正要解决的不是“互相能调”，而是：

把触发、执行、回传、归档、通知和抑制收成一条可信链路。

这篇文章就只讲这个问题：

测试平台如何接入 Jenkins 与告警，才不至于后面入口越来越多、状态越来越乱、消息越来越没人看。

一、Jenkins 在平台体系里，最好先收清角色

很多平台接 Jenkins 后会越来越乱，根因不是工具本身，而是角色边界一开始就没定清楚。

更倾向把职责收成下面这样。

平台负责

任务定义
参数校验
权限控制
环境和资源决策
报告沉淀
告警路由和抑制规则

Jenkins 负责

接收一次标准化执行请求
调度既有流水线或执行节点
管理构建现场
回传执行状态和产物

也就是说，更把 Jenkins 看成：

平台的一类执行后端或集成执行器。

而不是让 Jenkins 反过来成为平台的“总入口”。

二、平台和 Jenkins 最容易打架的，不是执行，而是状态

很多接入方案最容易只打通“触发”，却没有打通“状态机”。

例如：

平台点了一次执行
Jenkins 成功接单并创建了 build
后面 Jenkins 队列等待、构建中断、节点失败、手工终止
平台却只知道最早那次“已触发”

这会直接带来几个问题：

平台状态假稳定
报告页和 Jenkins 页面互相打架
取消、重试、失败归因全部失真

所以平台接 Jenkins 时，更合适的做法是先统一最小状态映射。

例如至少有：

queued
building
success
failed
aborted
lost

并且明确：

哪些状态由平台主导
哪些状态由 Jenkins 回传
超时和失联由谁收敛

三、告警体系最容易做错的，不是渠道，而是分级

一做告警，最常见的动作都是：

接企业微信
接飞书
接邮件

这些都重要，但真正决定告警有没有价值的，不是发到哪，而是：

为什么发、发给谁、什么级别才该发。

如果没有分级，最后最常见的结果就是：

所有失败都发
所有人都收
很快所有人都不看

更倾向至少先把告警拆成下面几层。

1. 执行级告警

例如：

任务失败
任务超时
Jenkins 构建中断

2. 平台级告警

例如：

回调收不到
状态长时间不同步
结果归档失败

3. 环境级告警

例如：

测试环境不可用
执行节点离线
关键依赖探活失败

4. 趋势级告警

例如：

同一任务连续 3 次失败
某类错误在最近 1 小时集中上升

只有把级别拆开，后面抑制和路由才有意义。

四、更推荐的一条接入链路

如果现在从 0 到 1 接测试平台、Jenkins 和告警，更推荐先把链路收成下面这样。

1. 平台创建执行实例

平台先做：

参数校验
权限校验
环境解析
资源检查

然后生成一条执行实例。

2. 平台向 Jenkins 发标准化执行请求

例如请求里至少带：

execution_id
task_code
pipeline_name
env_snapshot_id
params
callback_token

这样 Jenkins 不再只是收到一堆零散参数，而是收到一个可追踪的执行上下文。

3. Jenkins 启动流水线并回传 build 标识

平台需要记录：

job_name
build_number
build_url

否则后面很难做状态对账和跳转追踪。

4. Jenkins 在关键节点持续回调平台

例如：

已排队
已开始
阶段完成
产物上传
已结束

这一步很关键，因为只有“开始”和“结束”两次同步通常是不够的。

5. 平台统一消费结果并决定是否告警

平台在拿到结果后，不是立即“失败即发消息”，而是先做：

失败分类
环境归因
已知问题过滤
告警等级判断

然后再决定通知动作。

五、Jenkins 接入不要只靠轮询，最好同时保留回调和兜底对账

很多系统接 Jenkins 时，常见两种极端：

只轮询 Jenkins API
只靠 Jenkins 主动回调

更倾向两者都保留。

1. 回调用来及时同步

优点是：

快
平台能及时更新状态
适合驱动报告和实时页面

2. 轮询或对账任务用来兜底

因为真实现场里经常会出现：

Jenkins 回调丢失
网络短时异常
构建中止后没完整回调

所以平台最好定时对账：

最近 1 小时的 running/building 任务
Jenkins 里对应 build 的真实状态
平台和 Jenkins 是否一致

没有这层兜底，平台状态迟早会出现漂移。

六、最小可执行实践：第一版怎么接

如果现在就要落第一版，更倾向下面这个顺序。

1. 先建一张 Jenkins 关联表

例如：

execution_id
job_name
build_number
build_url
jenkins_status
last_sync_time

2. 平台只开放一个标准触发入口

不要让用户同时：

直接点 Jenkins
又从平台点
又走脚本临时调

至少对外先收一个正式入口，避免多头触发。

3. Jenkins Pipeline 固定输出三类结果

执行状态
结构化结果摘要
报告或附件地址

4. 平台统一做一层失败分类

最少先分：

平台失败
环境失败
执行失败
业务失败
已知问题

5. 告警先做 3 条基本规则

发布阻塞任务失败：立即通知责任人和群组
普通回归失败：只通知任务发起人和模块 owner
环境性失败：聚合后限频通知，不逐条轰炸

这比“一把梭全发群里”要稳得多。

七、现场观察点：平台和 Jenkins 对不上时先查哪几件事

如果平台和 Jenkins 的状态开始对不上，通常先看下面这些点。

1. 平台有没有保存 Jenkins build 身份

先确认：

job_name
build_number
build_url

是否完整。

2. 回调有没有真的到平台

看：

回调日志
回调响应码
签名或 token 校验

3. Jenkins 最终状态和平台映射是否一致

例如：

Jenkins ABORTED 是否被误映射成失败
节点丢失是否被平台仍算运行中

4. 告警是不是在失败分类之前就发了

这是很常见的误报来源。

5. 对账任务有没有跑

如果没有兜底对账，偶发状态漂移最后一定会积累成系统性不可信。

八、真实项目里最容易踩的 6 个坑

1. 把 Jenkins 当成平台主入口

后面权限、参数、环境和报告都会分叉。

2. 只打通触发，不打通状态同步

这会让平台永远只能“发起”，不能真正“管理”。

3. 回调只传最终结果

中间过程一旦出问题，平台就很难解释为什么任务卡住了。

4. 所有失败都立刻发消息

最终只会制造消息疲劳。

5. 告警没有结合报告和证据链接

收到消息后还得自己去翻系统，效率非常差。

6. 没有做已知问题抑制和环境失败聚合

一旦环境抖动，群消息会被瞬间刷满。

九、真实案例型段落：一次“群里被刷屏”的失败，真正要修的不是通知模板

场景

某次夜间回归时，群里连续收到几十条失败通知。

表面上看像是：

很多任务同时失败
平台和 Jenkins 都在报错

团队一开始以为问题出在：

Jenkins 节点不稳定
通知模板写得太粗

执行

现场先没有去改通知，而是先做 4 组检查：

看失败任务是否集中在同一环境
对照 Jenkins build 状态和平台执行状态
查失败分类是在什么时候做的
看通知是否经过抑制和聚合规则

现象

很快发现：

大部分任务都打在同一套测试环境
环境探活早就异常
Jenkins 构建本身很多其实执行正常，只是业务前置检查失败
平台在“拿到失败事件”后立刻逐条发消息，没有等归因和聚合

所以看上去像“几十个任务同时炸了”，其实本质上是：

一个环境故障
被放大成几十条独立通知

排查

继续往下排，确认有两个设计问题：

环境失败没有单独收口成环境级告警
Jenkins 结果回到平台后，没有先经过失败分类和去重

因此平台把每个任务都当成“值得立刻通知的单独事件”。

修复

最后做了 4 个动作：

增加环境性失败聚合规则
同类任务失败按时间窗口限频
普通失败消息里强制附带报告链接和归因标签
平台新增 Jenkins 对账任务，避免状态飘导致重复发

修完以后，真正的故障信息反而更容易被团队识别。

十、平台接 Jenkins 与告警成熟度的一个判断标准

判断这条链路做得成熟不成熟，通常不会先看：

能不能触发流水线
能不能发企业微信

更看下面几件事：

平台是不是唯一正式入口
Jenkins 状态能不能被平台可信接管
告警是不是先分类、再路由、再通知
消息里有没有证据和报告入口
环境级和趋势级异常能不能被聚合处理

如果这些做不到，所谓“接入 Jenkins 与告警”本质上只是：

多了一个执行跳板，加了一层消息放大器。

真正成熟的接入，不只是让任务能跑、让消息能发，而是：

让平台能可信地调度 Jenkins，并把结果翻译成少而准、能推动动作的通知。