测试平台-06-测试平台的环境管理设计

发表于 2021-08-12 分类于测试平台本文字数： 3.2k 阅读时长 ≈ 12 分钟

很多测试平台前期都容易把环境管理理解成一件很轻的事：

配一个 base url
配几套账号
切一下环境下拉框

页面上看起来像是做完了，但平台只要真正进入多人并发使用阶段，环境问题很快就会变成最频繁的一类故障来源：

同一条任务昨天能跑，今天突然全红
用例明明打的是测试环境，结果请求落到了预发
数据准备脚本互相覆盖，前后任务互相污染
任务执行完了，环境现场没有回收，下一个任务接着踩坑
报告显示是业务失败，根因其实是环境配置漂移

所以测试平台里的环境管理，本质上不是“配参数”，而是：

把环境当成一类可被识别、可被隔离、可被租用、可被回收的对象。

这篇文章就只讲这个问题：

测试平台的环境管理到底该怎么设计，才不至于后面越跑越脏、越用越不可信。

一、环境管理最容易被低估的，不是配置数量，而是环境边界

很多平台环境越做越乱，根因往往不是环境太多，而是从一开始就没有回答清楚：

什么叫一套环境
哪些配置属于环境
哪些配置属于任务
哪些资源应该被共享
哪些资源必须按执行实例隔离

如果这些边界不清，很快就会出现下面这种混写方式：

地址配在任务里
账号配在脚本里
设备 ID 写在 Jenkins 参数里
Token 临时放在数据库备注里

表面上每次都能勉强跑起来，但平台已经失去了“环境可管理性”。

更倾向先把环境边界收成下面几类对象。

1. 环境标识

它回答的是：

这到底是哪个环境
属于哪个项目或系统
当前处于什么生命周期

例如：

order-test-a
order-pre-release
voice-lab-b

2. 环境配置

它回答的是：

地址是什么
依赖服务在哪里
当前可用能力是什么

这块通常包括：

服务域名
数据库地址
Redis / MQ / ES 地址
第三方回调地址
浏览器节点或设备池入口

3. 环境敏感信息

它回答的是：

账号密码
Token / 密钥
SSH 凭据
第三方接入凭证

这部分绝对不应该和普通配置混在一起暴露。

4. 环境资源

它回答的是：

哪些是真正会被任务占用的对象

例如：

真机设备
浏览器实例
测试账号
专项数据池
外部号码资源

5. 环境状态

它回答的是：

当前健康不健康
是否可被调度
是否处于维护中
最近一次检查结果是什么

如果没有这层，调度器就只能把环境当死配置用，后面一定会把大量失败误算成业务失败。

二、环境不要只做成“参数模板”，最好做成独立对象

很多平台一开始为了快，会把环境写成一堆可选参数：

env=test
host=http://xxx
db=xxx

这种方式短期看省事，但平台一旦扩起来，问题就会很明显：

配置重复
变更无法审计
同名环境含义越来越飘
无法做健康状态和租约控制

所以更推荐把环境抽成独立对象，至少要有：

环境基本信息
环境配置快照
敏感信息引用关系
可分配资源列表
健康状态

这一步很重要，因为调度、报告、排障、审计，后面都要依赖“环境是一个清晰对象”这件事。

三、环境管理真正难的，不是切换，而是隔离

测试平台环境问题里，最常见的痛点其实不是“找不到入口”，而是：

互相污染。

常见污染方式通常有这几类。

1. 配置污染

例如：

同一任务模板被人临时改成了预发地址
回调地址被手工改过，但没人知道

2. 数据污染

例如：

同一批测试账号被多任务并发占用
数据准备脚本重复写入，导致断言结果失真

3. 资源污染

例如：

某台真机被 UI 用例占住，但接口任务还在继续调用它
浏览器节点没有清 session，下一个任务接着复用脏现场

4. 结果污染

例如：

报告里写的是 test-a
实际打出去的请求却已经切到了 pre-release

所以环境设计里，比“选择环境”更重要的是下面两件事：

环境隔离策略
运行时环境快照

四、更推荐的一套环境管理骨架

如果是测试平台第一版环境体系，更倾向至少有下面几层。

1. 环境中心

负责维护：

环境名称
所属项目
环境类型
生命周期状态

2. 配置中心

负责维护：

普通配置
配置版本
生效时间
变更记录

它不应该只是一张表，而应该支持最基本的版本化和审计。

3. 密钥中心

负责维护：

密码、Token、私钥
权限范围
谁能查看或引用

这一层至少要做到“引用”和“脱敏展示”分离。

4. 资源池

负责维护：

设备
账号
测试号码
浏览器节点
数据池

并且支持：

健康标记
占用租约
回收动作

5. 健康检查与环境守护

负责：

定时探活
配置连通性校验
依赖服务可用性检查
资源异常自动摘除

这块很多平台会拖到后面，但如果没有它，环境最终只会变成一堆不可靠的静态记录。

五、环境管理和任务调度，最好从一开始就打通

上一篇写调度与执行引擎时，核心讲的是：

任务需要资源
调度要看资源

环境管理如果和调度完全断开，后面基本会出现两个问题：

调度器以为环境可用，实际环境早坏了
平台明明有环境对象，但任务运行时还是直接读散落配置

所以更合适的做法是环境和调度至少打通下面几件事：

1. 任务执行时必须生成环境快照

记录：

本次执行实际用的是哪套环境
当时的关键配置是什么
依赖入口是什么

这样后面报告里才有证据能还原现场。

2. 环境中的可占用资源要进入租约系统

例如：

账号
设备
浏览器节点
数据池槽位

不要让任务自己去“碰运气拿资源”。

3. 环境健康状态要进入调度判断

例如环境被守护程序标成：

degraded
maintenance
unavailable

调度器就不应该继续往上派发普通任务。

六、最小可执行实践：第一版环境管理怎么搭

如果现在从 0 到 1 做环境管理，更适合优先把下面这些东西做出来。

1. 先定义一张环境主表

字段最少包括：

env_code
project_code
env_type
status
owner
description

它先回答“环境是谁”。

2. 再拆一张配置表和一张密钥引用表

例如：

environment_config
environment_secret_ref

配置表只放普通配置，密钥表只放引用关系，不直接明文展示。

3. 再建一张环境资源表

例如：

environment_resource

记录：

资源类型
资源编码
健康状态
当前租约

4. 任务执行前固定生成环境快照

这一步不要偷懒。

每次执行都保存一份：

本次解析后的环境配置
关联的资源分配结果
当时的环境版本号

5. 加一组基础探活脚本

第一版不用做复杂，可先覆盖：

域名和端口连通
核心接口心跳
数据库连通
Redis / MQ 可用性

每天固定跑，或者在任务执行前做轻量自检。

七、现场观察点：一条任务跑挂了，先判断是不是环境问题

平台现场排障时，起点通常不是直接下结论说“脚本失败”，而是先看下面这张顺序。

1. 任务报告里的环境快照是否正确

先确认：

名称对不对
地址对不对
配置版本对不对

2. 环境状态当时是不是健康

看：

最近探活记录
是否被标记降级
是否在维护期

3. 本次执行拿到的资源是不是对的

例如：

账号是否可用
设备是否在线
浏览器节点是否健康

4. 数据准备和回收是否成功

这一步很关键，因为很多“业务失败”本质上只是前序现场没收干净。

5. 环境变更记录有没有异常

例如：

谁在任务前改了配置
配置改完是否重新发布
是否只改了一部分依赖入口

八、真实项目里最容易踩的 6 个坑

1. 把环境配置写死在任务里

短期方便，长期无法治理。

2. 密钥和普通配置混存

最后不是泄漏风险，就是没人敢动。

3. 没有环境快照

报告只能看到任务失败，却还原不了当时到底打到了哪。

4. 资源池没有租约和健康状态

设备、账号、节点很快就会变成假可用。

5. 环境探活只在页面展示，不进调度决策

平台明明知道环境有问题，却还是继续派发任务。

6. 任务结束后没有回收动作

数据脏、会话脏、资源脏，最后全部变成“平台不稳定”。

九、真实案例型段落：一次“全量冒烟突然飘红”的根因不是脚本改坏了

场景

某次版本发布前，平台跑一轮全量冒烟，很多任务集中失败。

表面现象很像脚本问题：

登录失败
下单超时
回调断言不一致

最初的排查方向是：

最近有人改了脚本
新代码把接口打坏了

执行

现场先按环境链路做了 5 组检查：

看失败任务的环境快照
对照成功任务的环境快照差异
查对应环境最近配置变更记录
查依赖服务探活和环境守护日志
抽一条任务复现并记录运行时资源分配

现象

很快发现失败任务有一个共同点：

报告写的是同一个测试环境
但其中一部分任务的回调地址已经不是旧地址

进一步查环境配置版本，发现：

核心服务入口已经更新
但回调服务地址仍引用上一版配置

这就导致同一环境内部实际出现了“半切换”状态。

排查

继续往下看，确认问题来自两层：

环境配置更新时只改了主配置表
任务执行前没有生成完整环境快照校验

所以平台虽然在页面上显示“还是 test-a”，但执行现场实际已经混入了新旧两套依赖。

结果就变成：

有些接口走新链路
有些回调还走旧链路
断言看起来像业务随机失败

修复

最后做了 4 个动作：

环境配置发布改成版本化整体发布，不允许只改半套
任务执行前增加关键依赖一致性校验
报告页展示完整环境快照与版本号
环境守护任务对关键回调链路做专项探活

修完之后，类似“明明同一环境却结果不一致”的问题明显下降。

十、平台环境管理成熟度的一个判断标准

判断一个测试平台环境管理做得好不好，通常不会先看：

页面上能切多少环境
能配多少参数

更看下面几件事：

环境是不是独立对象
配置和密钥是否分层管理
任务运行时是否有环境快照
资源是否可租约、可回收
环境健康是否真的进入调度决策

如果这些做不到，平台里的环境就不是真正被管理了，只是：

把很多散落配置换了个地方继续堆。

真正稳定的测试平台，环境不是一堆参数，而是一套：

可定义、可隔离、可分配、可观察、可回收的运行现场。