Python：基础语法之外，最该补的其实是数据模型和对象语义

发表于 2018-08-15 分类于 Python 本文字数： 4k 阅读时长 ≈ 15 分钟

Python 真正难的地方，往往不在 if、for、函数定义，而在对象语义：赋值为什么会串改、参数为什么会联动、浅拷贝为什么不够、is 和 == 到底差在哪。这篇文章围绕一个任务配置加工脚本，把数据模型和对象行为真正讲清楚。

Python 学到一段时间之后，最容易出现一种错觉：

基础语法已经会了
代码也能写出来
一到真实脚本里却总是出现“怎么这里又被改了”

这类问题通常不属于语法错误，而属于对象语义没真正建立起来。

最常见的表现有这些：

只是把一个变量赋给另一个变量，结果两边一起变
明明只想改一层配置，最后把原始模板也改坏了
函数里改了参数，调用方的数据也跟着变
字典明明看起来一样，放进 set 却又报错
is 和 == 总是混着用，调试时经常误判

这一篇不去讲抽象术语，而是围绕一个实际功能展开：做一个任务配置加工脚本。

这个脚本要完成这些事：

读取一份任务模板
按环境覆盖部分配置
补充运行时字段
把结果传给执行函数
保证原始模板不被污染

只要这条链能真正写稳，Python 数据模型这一层就算开始掌握了。

一、这篇文章要解决什么问题

读完这一篇，应该能独立完成这些动作：

说清楚“变量名”和“对象”不是一回事
分清可变对象和不可变对象带来的实际差异
知道赋值、浅拷贝、深拷贝分别会影响哪一层
知道 Python 函数参数传递为什么经常和预期不一样
知道 is、==、hash 在真实代码里分别承担什么角色
给这类逻辑补最小测试，避免对象联动问题线上才暴露

如果这些动作能独立做出来，后面再学类、装饰器、pytest、缓存结构，理解会顺很多。

二、先看这个脚本到底要处理什么事

假设现在有一份最简单的任务模板：

task_template = {
    "task_name": "nightly_sync",
    "retry": 2,
    "timeout": 30,
    "labels": ["nightly", "sync"],
    "env": {
        "base_url": "https://test.example.com",
        "token": "test-token",
    },
}

现在要根据不同环境生成真正执行用的配置：

prod 环境需要替换 base_url
当前执行批次要补一个 batch_id
某些标签要动态追加
但原始模板必须保持不变，后面还要复用

期望输出像这样：

{
    "task_name": "nightly_sync",
    "retry": 2,
    "timeout": 30,
    "labels": ["nightly", "sync", "prod"],
    "env": {
        "base_url": "https://prod.example.com",
        "token": "prod-token",
    },
    "batch_id": "B-20240815",
}

这个需求不复杂，但已经足够把对象语义里最容易错的几件事都带出来。

三、先看一个最容易写错的版本

不少脚本第一次会写成这样：

task_template = {
    "task_name": "nightly_sync",
    "labels": ["nightly", "sync"],
    "env": {"base_url": "https://test.example.com"},
}

task_config = task_template
task_config["labels"].append("prod")
task_config["env"]["base_url"] = "https://prod.example.com"

print("template:", task_template)
print("config:", task_config)

执行：

1	python task_builder.py

输出：

1
2

template: {'task_name': 'nightly_sync', 'labels': ['nightly', 'sync', 'prod'], 'env': {'base_url': 'https://prod.example.com'}}
config: {'task_name': 'nightly_sync', 'labels': ['nightly', 'sync', 'prod'], 'env': {'base_url': 'https://prod.example.com'}}

明明只想改 task_config，结果原始模板也变了。

这不是 Python 在“偷偷联动”，而是：

task_config = task_template 不是复制
它只是让两个名字指向同一个对象

如果这里不先建立这个认识，后面所有“为什么这里串了”的问题都会反复出现。

四、变量名不是盒子，对象才是被引用的值

先看一个最小例子：

task_a = {"name": "sync"}
task_b = task_a

print(task_a is task_b)

输出：

True

这个结果表达的是：

task_a 和 task_b 是两个名字
它们当前引用的是同一个字典对象

可以把它理解成：

先创建了一个字典对象
task_a 绑定到这个对象
task_b 也绑定到这个对象

所以修改其中任意一个名字看到的内容，实际上都在改同一个对象。

这也是为什么排查对象联动问题时，先不要怀疑“是不是 Python 有 bug”，而应该先确认：

是不是只有名字变了
对象本身其实没复制

五、可变对象和不可变对象，真正影响的是修改行为

Python 里不是所有对象都会表现出同样的联动方式。

先看一组例子：

number_a = 10
number_b = number_a
number_b += 1

print(number_a, number_b)

list_a = [1, 2]
list_b = list_a
list_b.append(3)

print(list_a, list_b)

输出：

1 2	10 11 [1, 2, 3] [1, 2, 3]

这里真正的差异是：

int 是不可变对象，number_b += 1 本质上创建了一个新对象
list 是可变对象，append() 是在原对象上直接修改

这也是为什么下面这些类型要格外小心：

list
dict
set
自定义类实例里可变字段

而这些类型更容易表现得“像值”：

int
float
str
tuple

但要注意，tuple 只是自身不可变；如果里面装的是可变对象，内部对象照样能变。

六、浅拷贝为什么经常看起来像修好了，实际没修彻底

发现赋值不行后，很容易马上改成：

1	task_config = task_template.copy()

如果模板只有一层，这通常够用。
但只要里面还有嵌套结构，浅拷贝很容易留下隐藏联动。

例子：

task_template = {
    "labels": ["nightly", "sync"],
    "env": {"base_url": "https://test.example.com"},
}

task_config = task_template.copy()
task_config["labels"].append("prod")

print(task_template)
print(task_config)

输出：

1 2	{'labels': ['nightly', 'sync', 'prod'], 'env': {'base_url': 'https://test.example.com'}} {'labels': ['nightly', 'sync', 'prod'], 'env': {'base_url': 'https://test.example.com'}}

原因很直接：

最外层字典是新的
但 labels 这个列表对象还是原来的

所以浅拷贝只复制一层引用关系，不会递归复制内部对象。

七、什么时候该用深拷贝，什么时候不该直接无脑上

如果需求是：

原模板不能被改
内层列表和内层字典也都要隔离

这时更直接的写法通常是：

1
2
3

from copy import deepcopy

task_config = deepcopy(task_template)

这样改内层字段时，原始模板就不会被带着一起变。

但也不要一看到嵌套结构就无脑 deepcopy()，因为它也有代价：

对象大时会更慢
某些自定义对象深拷贝成本高
有时真正需要的只是显式重建局部结构，不是整棵树全复制

更稳的判断通常是：

先看是不是必须隔离内层对象
如果只改一两个字段，优先显式重建那一层
如果是整份模板派生运行配置，deepcopy() 通常更省心

八、函数参数传递为什么总容易被理解错

另一个高频误区是：

以为 Python 是“值传递”
结果函数里一改参数，外面数据也跟着变

看一个例子：

def enrich_task(config):
    config["labels"].append("runtime")
    config["batch_id"] = "B-20240815"


task = {"labels": ["nightly"]}
enrich_task(task)
print(task)

输出：

1	{'labels': ['nightly', 'runtime'], 'batch_id': 'B-20240815'}

这说明：

函数接收到的是对象引用
在函数内部改可变对象，本质上还是在改外面的同一个对象

如果函数职责本来就是“原地加工”，这没问题。
真正的问题在于很多函数的意图并不清楚：

到底是“修改原对象”
还是“返回一个新对象”

函数接口一旦含糊，后面就很难维护。

九、更稳的工程写法，是先把函数语义说清楚

针对配置加工这类逻辑，更稳的方式通常只有两种：

1. 明确声明这是原地修改函数

1
2
3

def mutate_task_config(config):
    config["labels"].append("runtime")
    config["batch_id"] = "B-20240815"

这种函数适合：

调用方明确知道会改原对象
性能敏感，不想反复复制
生命周期很短，联动风险低

2. 明确返回新对象

from copy import deepcopy


def build_task_config(template, env_name, batch_id):
    config = deepcopy(template)
    config["labels"].append(env_name)
    config["batch_id"] = batch_id
    return config

这种函数更适合：

模板要长期复用
多个调用链都可能基于同一个模板派生
后面要补测试、排查和回放

对大多数测试工具脚本、配置生成脚本来说，第二种通常更稳。

十、`is` 和 `==` 到底该怎么分

这是另一组反复混淆的点。

先看最小例子：

task_a = {"task_id": 1001}
task_b = {"task_id": 1001}
task_c = task_a

print(task_a == task_b)
print(task_a is task_b)
print(task_a is task_c)

输出：

1
2
3

True
False
True

可以直接记成：

== 比较的是值是否相等
is 比较的是是不是同一个对象

工程里常见有效用法是：

判断内容相同，用 ==
判断是否是 None，用 is None
判断对象身份时，才考虑 is

最容易错的写法是把内容比较写成：

1 2	if status is "done": ...

这种写法不稳，因为这里真正要比的是值，不是对象身份。

十一、`hash` 和可哈希对象，为什么经常到 set 和 dict 才出问题

再往下一层，就会碰到这个报错：

1	TypeError: unhashable type: 'dict'

第一次看到这里时，常见疑问是：
“字典不是很常用吗，为什么不能放进 set 里？”

原因不复杂：

set 的元素必须可哈希
dict 的键也必须可哈希
可变对象通常不能作为哈希键，因为内容改了以后哈希值会失去稳定性

所以这些写法通常会报错：

1 2	bad_set = {{"task_id": 1001}} bad_dict = {[1, 2]: "value"}

而这类写法通常没问题：

1 2	good_set = {(1001, "nightly")} good_dict = {("GET", "/health"): 3}

这也是为什么前面的日志统计文章里，接口键适合用元组，而不是列表或字典。

十二、怎么测试这类对象语义是不是真的掌握了

这类问题最怕“靠肉眼觉得没事”，结果一到线上就串数据。

先给一个最小测试文件：

test_task_builder.py：

from copy import deepcopy


def build_task_config(template, env_name, batch_id):
    config = deepcopy(template)
    config["labels"].append(env_name)
    config["batch_id"] = batch_id
    return config


def test_template_should_not_be_mutated():
    template = {
        "labels": ["nightly"],
        "env": {"base_url": "https://test.example.com"},
    }

    result = build_task_config(template, "prod", "B-1")

    assert template["labels"] == ["nightly"]
    assert "batch_id" not in template
    assert result["labels"] == ["nightly", "prod"]


def test_result_should_have_independent_nested_env():
    template = {
        "labels": ["nightly"],
        "env": {"base_url": "https://test.example.com"},
    }

    result = build_task_config(template, "prod", "B-1")
    result["env"]["base_url"] = "https://prod.example.com"

    assert template["env"]["base_url"] == "https://test.example.com"

执行：

pytest -q

输出：

1 2	.. [100%] 2 passed in 0.02s

这类测试真正的价值不是覆盖率数字，而是把“模板不能被污染”这种对象语义要求固定下来。

十三、一个实际排错场景

这类问题在线上最常见的现象通常不是报错，而是：

同一批任务里，后生成的配置把前一批配置带脏了
有些任务莫名多了不属于自己的标签
某个环境的 URL 被后一个任务覆盖

先看一段典型问题代码：

def build_configs(task_template, env_list):
    result = []

    for env_name in env_list:
        config = task_template.copy()
        config["labels"].append(env_name)
        result.append(config)

    return result

现象：

第一条配置看起来正常
第二条配置里标签突然越来越多
最后所有结果都像共享同一份 labels

排查顺序通常应该这样走：

先确认是不是循环里复用了同一个对象
再打印 id(config["labels"])
发现不同配置里的 labels 身份相同
最后定位到浅拷贝只复制了最外层字典

修复方式：

from copy import deepcopy


def build_configs(task_template, env_list):
    result = []

    for env_name in env_list:
        config = deepcopy(task_template)
        config["labels"].append(env_name)
        result.append(config)

    return result

这类排错过程最重要的不是背“deepcopy 更稳”，而是：

先看现象是不是对象联动
再看引用关系
最后确认哪一层没真正复制

十四、一个实际练习

可以直接做一个很小的练习，把这篇文章真正转成手感。

练习目标：做一个“接口压测任务配置派生脚本”。

要求：

提供一份基础任务模板
根据 dev、test、prod 派生三份配置
每份配置都补不同的 batch_id
原始模板不能被修改
至少补 2 条 pytest 用例验证对象隔离
故意写一版浅拷贝错误版本，再把测试跑红一次

如果这个练习能独立做完，说明数据模型和对象语义这一层已经不再停留在概念上。

十五、一个更接近值班现场的完整案例

把对象语义放回一次真实值班处理链，会更容易理解它为什么会在项目里反复出问题。

假设现在有一个夜间补跑工具，要基于一份任务模板派生多份运行配置：

失败重跑任务
超时重跑任务
手工补跑任务

同时每份任务又要按环境生成：

dev
test
prod

这时更顺的处理顺序通常是：

1. 先保护原始模板

值班现场最怕的不是某一份派生配置错了，而是原始模板被污染，后面所有补跑结果都跟着偏。

所以第一步通常不是直接改，而是先明确：

这份函数到底会不会改原模板
如果不允许改，就必须生成独立对象

2. 再确认哪些字段是危险的可变对象

例如：

task_template = {
    "task_name": "retry_failed_order",
    "retry": 2,
    "labels": ["nightly", "retry"],
    "notify": {"slack": True, "email": False},
}

这里真正危险的，不是 retry=2 这种不可变值，而是：

labels
notify

这两个字段只要复用引用，后面就最容易联动污染。

3. 再把函数语义说清楚

派生配置这类函数，更稳的约束通常是：

模板派生函数只返回新对象
原地修改函数只留给短生命周期内部流程

只要这层语义不明确，调用方就很容易误判。

4. 最后把对象语义要求写成测试

这类值班工具最值得固定下来的，通常不是某一行打印文案，而是：

原始模板不得污染
派生结果之间嵌套字段必须隔离
去重键必须稳定
None、空列表、空字典的真假值判断不能误判

到这里，对象语义才真正从“解释器层知识”变成“值班工具能不能稳定运行”的工程约束。

十六、什么时候该用 `deepcopy`，什么时候显式重建更划算

学完对象语义之后，最容易出现的另一种误判是：

看到嵌套结构就直接 deepcopy
好像所有问题都解决了

更稳的判断通常是：

1. 整份运行配置派生时，`deepcopy` 很省心

如果需求是：

原模板不能碰
内层结构也要完全隔离
派生逻辑本身不复杂

这时 deepcopy() 通常是最省事的答案。

2. 只改局部字段时，显式重建更清楚

例如只想替换环境配置：

config = {
    **task_template,
    "env": {
        **task_template["env"],
        "base_url": "https://prod.example.com",
    },
}

这种写法虽然更长，但更容易看清到底改了哪一层。

3. 大对象和热路径里，不要把 `deepcopy` 当默认答案

如果对象很大、生成频率很高，真正该先想的是：

能不能只复制必要层
能不能减少嵌套可变对象
能不能让模板本身更扁平

真正有工程价值的不是“会不会用 deepcopy”，而是知道：

什么时候它最省心
什么时候它只是在掩盖结构问题

十七、这一篇学完以后，下一步应该补什么

如果这一篇已经真正吃透，下一步最适合继续补的是：

类、继承、协议、魔术方法
pytest 夹具与测试隔离
Python 学到后面最容易出现哪些坏味道，应该怎么重构

因为对象语义一旦不稳，后面这些主题都会一起跟着乱。

十八、结语

Python 基础语法不难，但真正决定代码稳不稳的，经常不是 if、for、函数定义本身，而是对象怎么被绑定、怎么被共享、怎么被复制。

回头看这一篇里最重要的几件事：

赋值不是复制
可变对象和不可变对象的修改行为不同
浅拷贝只复制一层
函数参数传递的关键在于对象是否被原地修改
== 比较值，is 比较身份
set 和 dict 的键要求对象可哈希

只要这条线真正建立起来，后面再写配置脚本、接口工具、测试夹具和类结构时，很多“怎么又串了”的问题都会少很多。