接口自动化：数据驱动接口测试的组织方式

发表于 2019-10-16 分类于接口自动化本文字数： 1.9k 阅读时长 ≈ 7 分钟

数据驱动不是把参数搬到 YAML 里，而是把接口模板、依赖关系、变量生命周期和造数规则一起组织成可维护的执行模型。

说自己做了数据驱动，实际只是把请求参数从 Python 文件挪到了 Excel 或 JSON。这样只能算“参数外置”，还远没到工程化。

真正需要重视数据驱动，通常是在接口自动化规模上来之后：接口数接近百级，回归任务拆成 smoke、full、巡检三种，登录、下单、查询、取消这样的链路场景越来越多。那时候如果还靠脚本里手写依赖和变量传递，框架很快就会变成一团乱麻。

这篇文章我按真实落地的思路展开，重点讲四件事：

数据驱动到底驱动哪些对象
实际会用什么工具来做
多接口依赖场景怎么实现
做完以后效果怎么判断

一、为什么“表格式数据驱动”很快会失效

最常见的做法是：

Excel 一行一条 case
一列写 URL
一列写 body
一列写预期结果
需要依赖时在备注里写“先调用登录接口”

这种方式前 20 条 case 看起来很顺，但一旦进入真实项目，很快会遇到下面这些问题：

body 是嵌套 JSON，Excel 很难维护
登录拿 token、创建订单拿 order_id 这类依赖没有统一表达
同一个接口在 smoke、full、巡检任务里要复用时，配置不断复制
环境切换时，不同环境的 host、账号、签名规则到处散落
一条 case 失败后，很难判断是数据没准备好，还是业务真有问题

所以数据驱动真正要解决的，不是“配置写在哪里”，而是“测试动作如何结构化表达”。

二、在项目里会把一条 case 拆成什么

如果是需要长期维护的接口自动化项目，一条 case 通常不会只有 request + expected 两个字段。更合适的是至少让它包含下面这些信息：

api_key：接口标识
name：用例名称
envs：允许执行的环境
method / path
headers_template
query_template
body_template
setup_hooks
extract_rules
assert_rules
validators
cleanup_hooks
priority / tags

也就是说，数据驱动驱动的是“一个完整的测试动作对象”，不只是“请求参数”。

三、怎么选工具

脚本阶段常见的组合是：

PyYAML：写接口模板和场景配置
Jinja2：做动态变量替换
jsonpath-ng：提取响应字段
requests：发送请求
unittest：组织执行
pymysql / redis-py：做副作用校验

为什么不是全放 Excel：

YAML 更适合多层结构
JSON body 放在 YAML 中也比 Excel 可维护
配置可以直接进 Git 做版本管理
更容易拆模板、拆环境、拆场景

如果进入平台阶段，我才会把一部分配置迁到 MySQL 或 MongoDB，再由前端页面做结构化编辑。

四、真实项目里会怎么分层

数据驱动如果不分层，很快就会走向复制粘贴。更常见的做法通常是三层。

1. 接口模板层

这一层描述相对稳定的内容，比如：

路径
method
默认 header
默认鉴权方式
默认 schema 断言

例如：

api_key: create_order
method: POST
path: /api/v1/orders
auth: buyer_token
headers:
  Content-Type: application/json
schema: order_create_response

2. 场景数据层

这一层描述“测什么变化”。比如：

正常下单
库存不足
缺少收货地址
非法商品状态

这里放的是场景输入和期望，不重复接口公共定义。

3. 依赖执行层

这一层专门处理链路依赖：

先登录再下单
先创对象再查询
先改状态再做删除

如果把依赖直接写死在 case 代码里，数据驱动的价值会被打掉一半。

五、一个真实链路是怎么跑起来的

拿“登录 -> 创建订单 -> 查询订单 -> 取消订单”这条链路举例，更合适的组织方式如下：

第一步：准备模板

login.yaml、create_order.yaml、query_order.yaml、cancel_order.yaml

第二步：准备场景

比如 order_success.yaml：

name: 正常下单并取消
steps:
  - ref: login
    extract:
      - from: $.data.token
        as: buyer_token
  - ref: create_order
    body:
      sku_id: 10001
      count: 1
    extract:
      - from: $.data.orderId
        as: order_id
  - ref: query_order
    path_params:
      orderId: "{{ order_id }}"
  - ref: cancel_order
    body:
      orderId: "{{ order_id }}"

第三步：运行器装配上下文

运行器负责：

把环境变量注入模板
执行 Jinja2 渲染
发送请求
把提取出的 buyer_token、order_id 写入上下文容器
后续步骤继续消费这些变量

第四步：校验副作用

比如取消订单后，除了断响应 code == 0，还会去查 MySQL：

订单状态是否从 INIT 更新成 CANCELLED
取消时间是否被回写
Redis 中该订单缓存是否同步失效

这一步决定数据驱动是不是“看起来很灵活”，还是“真正能验证业务闭环”。

六、变量作用域是数据驱动最容易被忽略的坑

很多项目做到后面开始混乱，根因不是 YAML 太复杂，而是变量生命周期没有管好。

通常会明确区分三种作用域：

case_scope：只在当前 case 有效
suite_scope：当前 suite 内可复用
task_scope：整个 Jenkins 构建或巡检任务共享

例如：

order_id 应该是 case_scope
admin_token 通常是 suite_scope
build_id、env_name 则属于 task_scope

如果这些变量全都塞到一个全局 dict 里，任务一并发，很快就会互相污染。

七、怎么做数据校验，防止任务跑到一半才发现配置错了

真实项目里，不适合直接加载 YAML 就开跑。运行前会做一轮预校验：

引用的 ref 是否存在
extract 表达式是否合法
模板渲染后是不是有效 JSON
必填字段是否齐全
依赖步骤是否有循环引用

这些校验通常放在 runner 初始化阶段完成。因为配置错误如果在第 23 条 case 才暴露，排查成本会高很多。

八、平台化之后怎么演进

当脚本资产变多以后，不适合立刻废掉 YAML 方案，而是逐步往平台迁：

接口模板保留文件或入库
场景配置入库
变量和依赖规则结构化存储
前端提供场景编排页面
后端统一调度执行器

这样做的好处是，底层执行能力不需要推翻，平台只是把“配置管理”和“结果展示”升级了。

九、最终效果怎么判断

“写了多少 YAML”通常不是重点，更值得看的是这些结果：

新增一个链路场景时，主要是在补配置，而不是复制 Python 代码
接口路径或 header 变更时，只改模板层
依赖关系在配置里可见，失败时更容易判断断在哪一步
多环境执行时，不需要手改大量参数
后续接平台时，配置和执行层可以自然拆开

如果这些效果没有出现，那说明所谓数据驱动大概率只是把脚本换了个写法。

十、结语

数据驱动接口测试的本质，不是配置化，而是把“测试动作、依赖、变量、校验、清理”组织成一套可扩展执行模型。做到这一步，接口自动化才有机会从几十条脚本长成一套能长期维护的系统。