DevOps-03-Jenkins-Pipeline怎么设计才不会越来越难维护

发表于 2021-11-18 分类于 DevOps 本文字数： 3.7k 阅读时长 ≈ 14 分钟

Jenkins Pipeline 在里都不是从设计开始失控的，而是从“先能跑起来”开始失控的。最初只有几个阶段，编译、测试、打包、部署看起来都不复杂。随着项目增多、环境增多、分支策略变化、测试链路加长、通知和回滚逻辑不断叠加，Pipeline 很容易从一条可读的交付链路，变成一大段难以理解、难以修改、难以复用的脚本集合。

真正难维护的 Pipeline，通常不是功能不够，而是职责边界混乱。有人把环境判断塞进每个阶段，有人把业务参数和构建参数混写在一起，有人把重试、通知、审批、回滚都堆在一个 Jenkinsfile 里，最后导致任何一个改动都可能牵动整条链路。表面上看是 Jenkins 写法问题，本质上是流水线设计没有工程化。

这篇文章不讨论 Jenkins 安装和基础语法，而是聚焦一个更实际的问题：Pipeline 怎么设计，才不会随着项目变大越来越难维护。

Pipeline 失控通常不是因为阶段多，而是因为职责没拆开

一看到 Jenkinsfile 很长，就下意识认为问题在于阶段太多。实际上，阶段多不一定不可维护，真正危险的是多个层次的逻辑缠在一起：

构建流程逻辑和环境差异逻辑缠在一起。
项目配置和平台能力缠在一起。
业务发布动作和流水线治理动作缠在一起。
正常路径和异常处理路径缠在一起。

一条可维护的 Pipeline，至少要把下面几类责任拆开：

项目级责任：当前项目要执行哪些构建、测试、打包、部署动作。
平台级责任：统一的重试、通知、凭证、归档、审计、回滚、超时控制。
环境级责任：测试、预发、生产在资源、审批、部署方式上的差异。
策略级责任：分支策略、触发策略、门禁策略、放行策略。

如果这些职责都写在一个 Jenkinsfile 的条件分支里，后面任何一类变化都会把脚本越改越脆。

先设计目录和分层，再写具体阶段

很多 Pipeline 难维护，不是因为 Jenkins 不支持抽象，而是因为没有先设计分层。可维护的 Pipeline 通常至少要有三个层次。

第一层：Jenkinsfile 只保留流程骨架

Jenkinsfile 最适合承载的是流程编排，而不是所有实现细节。它应该清楚表达：

这条流水线有哪些阶段。
阶段之间的先后关系是什么。
哪些阶段必须执行，哪些阶段按条件执行。
出错后进入什么兜底路径。

Jenkinsfile 如果充满 shell 细节、长段 Groovy 逻辑、到处散落的 if/else，很快就会变得不可读。

第二层：共享库或脚本模块承载通用能力

重复出现的动作，不应该在多个 Jenkinsfile 里复制。例如：

代码拉取和依赖缓存。
制品归档和命名规范。
单测、接口测试、UI 测试执行封装。
镜像构建和推送。
通知、审批、回滚、失败清理。

这些动作更适合沉淀为共享库或脚本模块，让 Jenkinsfile 调用，而不是每条流水线各写一份。

第三层：配置文件承载项目差异

会把所有项目差异都写成条件判断，例如：

如果是服务 A，就走 Docker 构建。
如果是服务 B，就先执行数据库脚本。
如果是服务 C，就只跑接口冒烟。

这种设计一开始看起来方便，后面会越来越难维护。更稳妥的方式，是把项目差异抽成配置：

项目构建方式。
测试阶段开关。
部署目标环境。
制品信息。
通知对象。
审批策略。

这样 Pipeline 的主体结构不需要因项目增多而越来越复杂。

阶段拆分不要只按工具拆，要按交付风险拆

Pipeline 分阶段时，最常见的做法是按工具拆：拉代码、Maven、Docker、K8s。这样写起来直观，但对维护帮助有限，因为阶段的边界仍然是工具边界，不是风险边界。

更合适的拆法，是按交付链路中的风险和放行点拆阶段。

1. 预检阶段

这一层解决“有没有必要继续往下跑”的问题，适合放：

参数校验。
分支校验。
配置加载。
凭证和环境可达性检查。
版本信息生成。

预检阶段越清楚，越能避免无意义的长时间执行。

2. 构建阶段

这一层只关心制品是否被稳定产出，适合放：

编译。
依赖下载。
制品打包。
镜像构建。
制品校验与归档。

构建阶段不应混入部署判断和大量通知逻辑。

3. 质量门禁阶段

这一层解决“是否具备继续交付资格”的问题，适合放：

单元测试。
静态检查。
接口冒烟。
安全基础扫描。
关键规则校验。

门禁阶段必须明确哪些是阻塞项，哪些是非阻塞项，否则后续维护时很容易出现“失败了也放过，成功了也没人信”的情况。

4. 交付阶段

这一层解决“制品如何进入目标环境”的问题，适合放：

测试环境部署。
预发环境验证。
生产审批。
灰度发布。
回滚入口准备。

5. 收尾阶段

这一层解决“执行完成后如何留痕和收口”的问题，适合放：

制品记录。
结果汇总。
报告链接。
通知发送。
清理动作。

这样拆的好处是，后续新增能力时更容易判断应该挂在哪一层，而不是到处插代码。

可维护的 Pipeline 需要明确三类策略

很多 Jenkinsfile 难维护，不是动作太多，而是策略没有显式表达。至少要把下面三类策略写清楚。

触发策略

不是每次提交都应该跑同一条长流水线。应明确：

哪些分支走完整链路。
哪些分支只跑预检和构建。
合并请求是否需要单独门禁。
定时任务是否和手工触发共享同一条流水线。

如果触发策略混乱，后面经常会出现“一个小改动触发全量交付”的浪费。

放行策略

放行策略不明确，Pipeline 再漂亮也没有意义。至少要定义：

哪些失败直接阻塞。
哪些失败允许人工确认后继续。
哪些环境必须审批。
哪些环境允许自动放行。

失败处理策略

只设计成功路径，不设计失败路径，后续维护成本会持续升高。失败处理至少要回答：

哪些阶段失败自动重试。
哪些阶段失败必须立即终止。
失败后如何收集日志和证据。
是否需要自动回滚。
通知发给谁，发什么。

这些策略不显式写清楚，后续每接入一个新项目，就会复制一套新的异常处理逻辑。

维护策略不只是“抽公共方法”，还要控制变更面

Pipeline 维护这件事，常见讨论会只落在复用上。复用当然重要，但如果没有控制变更面，复用本身也可能带来新问题。

1. 控制共享库的粒度

共享库不是越大越好。过大的共享库一改就影响所有项目，最后会变成新的单点风险。更合适的方式是把共享能力拆成稳定的小模块，例如：

通知模块。
测试执行模块。
镜像构建模块。
部署模块。

每个模块职责单一，升级影响面才容易评估。

2. 把参数收敛成稳定接口

Pipeline 维护成本很高的一个原因，是参数越来越多，而且命名不统一、语义不清晰。建议尽早收敛：

必选参数和可选参数分开。
平台参数和业务参数分开。
布尔开关不要无限扩张。
同一类参数命名保持一致。

参数如果失控，Jenkinsfile 很快就会变成条件判断工厂。

3. 给阶段定义输入和输出

阶段之间的边界如果模糊，后续维护时很难替换其中一个阶段。更稳妥的做法是给关键阶段定义输入输出：

构建阶段输出制品和版本号。
测试阶段输出结果状态和报告地址。
部署阶段输出部署目标和结果摘要。

这样某个阶段即使内部实现调整，外部依赖也不需要全改。

4. 给高风险阶段保留观测点

Pipeline 一旦变复杂，问题不再只是“失败了”，而是“失败发生在哪一层”。可维护的设计应当给关键阶段保留观测点：

当前执行环境。
当前使用的配置版本。
当前制品版本。
当前目标环境和部署对象。
当前触发来源。

没有这些观测点，排查流水线问题会越来越慢。

常见失控点

失控点一：一个 Jenkinsfile 承载所有项目差异

项目数量一多，脚本里会出现越来越多 if service == xxx、if env == prod、if branch == release。这种写法早晚会把 Jenkinsfile 变成维护灾难。

失控点二：阶段名稳定，阶段内容越来越重

表面上仍然只有“Build”“Test”“Deploy”三个阶段，但每个阶段里已经塞了几十行甚至上百行逻辑。阶段数量没有失控，不代表复杂度没有失控。

失控点三：异常处理全靠复制粘贴

重试、通知、日志归档、清理动作如果每条 Pipeline 都自己写一份，后续规则一变就要到处同步修改，非常容易漏。

失控点四：把平台职责交给项目自己维护

通知格式、归档规则、审批口径、日志收集这些平台级职责，如果由每个项目单独定义，长期一定会出现质量不一致和治理困难。

失控点五：流水线状态和真实交付状态脱节

Jenkins 显示成功，不代表交付真的成功。比如部署脚本只判断命令退出码，没有校验服务健康；测试报告生成了，但关键门禁并未真正生效。这种脱节会直接降低流水线可信度。

一套更适合团队落地的最小骨架

如果现有 Pipeline 已经开始变乱，不需要一下子重构成很大的共享平台，先把最小骨架拉起来更现实：

统一阶段命名和阶段顺序。
把长段 shell 脚本从 Jenkinsfile 中抽出。
把通知、归档、重试、超时做成统一能力。
把项目差异改成配置而不是条件分支。
给关键阶段加输入输出和观测点。
明确阻塞门禁和人工放行边界。

这样做之后，即使暂时还没有完整共享库，Pipeline 的可读性和可控性也会明显提升。

真实案例：一次看似普通的通知改动，为什么把多条 Pipeline 一起带崩了

场景

某团队维护十几条 Jenkins Pipeline，历史上所有通知逻辑都直接写在各自 Jenkinsfile 里。后来为了统一企业微信消息格式，计划在一个版本里同步调整通知模板，并把失败通知增加构建参数、分支名和环境信息。

执行

改动方式很直接：逐条修改 Jenkinsfile，在不同阶段失败后拼接新的通知内容。由于各项目历史写法不同，有的在 post 块发通知，有的在阶段内部 catch 后发通知，有的还混用了不同的环境变量名称。

现象

改动上线后，出现了几类问题：

有的流水线构建成功但发了失败通知。
有的流水线失败后重复通知三次。
有的流水线在测试阶段就因为取不到环境变量直接中断。
最麻烦的是，不同项目的修复方式都不一样，排查成本迅速升高。

排查

进一步梳理后发现，问题并不在消息模板本身，而在通知职责长期没有收敛成统一能力：

同一类通知逻辑分散在多个阶段和多个 Jenkinsfile 中。
环境变量命名没有统一，例如有的用 BRANCH_NAME，有的用自定义参数。
成功和失败路径的通知入口不一致，导致条件判断失真。
部分流水线把通知和结果判定写在一起，模板改动间接改变了执行路径。

这说明真正的问题不是“通知格式改坏了”，而是“平台级职责被分散复制太久，任何统一改动都会放大历史问题”。

修复

后续修复没有继续逐条补丁，而是做了结构性调整：

把通知逻辑统一抽到共享模块。
为通知模块定义稳定输入，例如项目名、分支、环境、结果状态、报告地址。
Jenkinsfile 只负责在统一时机调用通知能力，不再自行拼消息。
对所有 Pipeline 补齐成功、失败、人工终止三类状态的统一出口。

调整完成后，后续再改通知格式时，不再需要修改十几条 Jenkinsfile，维护面显著收缩。

写在最后

Jenkins Pipeline 的可维护性，从来不是靠“写得更熟练”解决的，而是靠分层、拆责、收配置、控变更面来解决的。真正稳定的流水线，不是最会堆功能的流水线，而是结构清楚、边界明确、问题可观测、规则可复用的流水线。只要设计时先把这些基础收稳，Pipeline 才不会随着项目增长变成难以维护的历史包袱。