大道至简 - 欲买桂花同载酒...

中间件-06-中间件故障注入降级和恢复测试怎么设计

发表于 2023-11-11 分类于中间件本文字数： 4.3k 阅读时长 ≈ 16 分钟

中间件故障注入真正要验证的不是组件会不会挂，而是业务在连接失败、超时、延迟、脑裂、主从切换和容量耗尽等异常下能否按预期降级，故障恢复后数据、流量、拓扑和告警又能否一起收敛。

阅读全文 »

中间件-05-中间件性能测试的压测模型指标口径和误判点

发表于 2023-11-04 分类于中间件本文字数： 4.6k 阅读时长 ≈ 17 分钟

中间件性能测试最容易失真的，不是压不上去，而是压测模型和真实业务不一致、指标口径混乱、瓶颈归因跑偏。这篇文章只讨论中间件性能测试的压测模型、指标口径、最小执行骨架、常见误判点和排查方法。

阅读全文 »

中间件-04-MySQL读写分离后的验证方法

发表于 2023-10-28 分类于中间件本文字数： 3.5k 阅读时长 ≈ 13 分钟

MySQL 上了读写分离之后，真正需要验证的通常不是架构图是否合理，而是读请求有没有真的走从库、复制延迟会不会影响业务、切换时会不会读到旧数据，以及故障发生后能不能快速证明问题到底出在路由、复制还是 SQL 本身。

阅读全文 »

中间件-03-Elasticsearch集群测试与监控方法

发表于 2023-10-21 分类于中间件本文字数： 4.7k 阅读时长 ≈ 17 分钟

Elasticsearch 集群测试真正难的通常不是把节点拉起来，而是怎么把写入、查询、分片、副本、磁盘水位和恢复过程放到同一套验证与监控口径里，避免只看节点在线却看不出集群已经开始退化。

阅读全文 »

中间件-02-Kafka集群测试与稳定性验证思路

发表于 2023-10-14 分类于中间件本文字数： 3.8k 阅读时长 ≈ 14 分钟

Kafka 集群验证真正难的部分，通常不是把 Broker 拉起来，而是怎么把生产、消费、副本、堆积、顺序、故障切换和回放链路收成一套可重复执行的验证方法，避免只测吞吐却漏掉稳定性风险。

阅读全文 »

Kafka：生产消费压测

发表于 2023-10-14 更新于 2025-07-16 分类于性能测试本文字数： 750 阅读时长 ≈ 3 分钟

1\\\\\\\\. 关键参数说明 1.1 Producer 参数 | 参数 | 说明 | 推荐值 | | | | | | thread | 单机线程数 | 根据CPU核数调整...

阅读全文 »

中间件-01-Redis集群与哨兵在测试中的验证点

发表于 2023-10-07 分类于中间件本文字数： 3.3k 阅读时长 ≈ 12 分钟

Redis 在测试里最容易被低估的，不是连通性，而是分片、主从复制、故障切换、客户端路由和业务写入在真实异常下能否同时成立。这篇文章只讨论 Redis 集群与哨兵在测试中的验证点、执行骨架、常见误判和排查方法。

阅读全文 »

云原生-08-DNS-Ingress-Consul在内部平台里怎么协同工作

发表于 2023-09-23 分类于云原生本文字数： 2.4k 阅读时长 ≈ 9 分钟

内部平台一旦同时引入 DNS、Ingress 和 Consul，最容易出现一种表面上很丰富、现场却很混乱的状态：域名已经配了，但访问还是不通 Ingress 规则已经发布，入口还是 404 或 502 服务在 Kubernetes 里能访问，跨服务调用却又绕去了 Consul Consul 健康检查显示通过，业务方仍然说目标服务不可用同一条链路里，入口层、服务发现层、内部解析层都留下了证据，但没人能快速说清根因落在哪一段这类问题的...

阅读全文 »

云原生-05-Prometheus+Grafana在测试平台和中间件监控中的落地方法

发表于 2023-09-16 分类于云原生本文字数： 3.1k 阅读时长 ≈ 11 分钟

第一次上 Prometheus + Grafana，最先完成的通常是这些动作：把 node-exporter、kube-state-metrics、redis-exporter 装起来导入几套现成 dashboard 让 Grafana 能看到 CPU、内存、网络和磁盘这些动作能让“看板”跑起来，但离“监控真正可用”还差很远。测试平台和中间件场景里的高频问题，往往不是没有指标，而是指标很多、结论很少：平台任务失败率升高，却说不清...

阅读全文 »

Grafana：监控面板配置

发表于 2023-09-16 更新于 2025-07-16 分类于性能测试本文字数： 48 阅读时长 ≈ 1 分钟

| 监控项 | | id | | : | : | : | | jvm | https...

阅读全文 »