Testbed单元测试怎么回归 Testbed变更后如何自动重跑-Testbed中文网站

　　这里先把口径说清一下。按TestbedOS官方文档，这一块更准确的说法其实是test harness驱动的集成测试，而不是传统意义上只围绕单个函数做mock的单元测试。官方把test harness定义为用来测试testbed全部功能的integration tests，测试用例以kvm-compose.yaml和kvm-compose-config.json的形式组织，并通过asset testing与连通性测试去验证虚拟机、网桥和网络行为是否正确。所以如果你现在说的“单元测试回归”，放到TestbedOS场景里，更稳的理解其实是“基于test case的回归测试”和“变更后的自动重跑”。

　　一、Testbed单元测试怎么回归

　　Testbed单元测试怎么回归，重点不是把所有测试一次性重新部署一遍，而是先把测试对象、测试配置和回归范围固定下来。官方文档已经把test case的结构写得很清楚，也就是每个测试案例由yaml、主机配置文件以及它引用的脚本和制品组成；这些文件本身就是回归基线，所以真正的回归入口，不是从运行命令开始，而是先把test case自身做成稳定、可重复的项目单元。

　　1、先把每个测试场景做成独立test case目录

　　官方说明里，test_cases目录下每个文件夹都对应一个独立测试案例，里面会放yaml、不同主机规模的kvm-compose-config.json，以及该用例引用的脚本和制品。这样做的价值，不只是目录看起来清楚，而是后面回归时可以直接按测试案例为单位重跑，而不是所有内容混在一套大工程里。

　　2、先让回归基线固定在yaml和配置文件层

　　TestbedOS官方在kvm-compose架构文档里明确说明，yaml会被解析成state JSON，再配合artefacts进入orchestration；同时这些artefacts多数是文本文件，官方还特别提到它们适合放进版本控制。也就是说，真正的回归基线不是某次运行状态，而是yaml、配置文件和生成规则本身。只要这层没固定，后面即使同样重跑，也不一定是同一套环境。

　　3、每次回归先看覆盖的测试维度

　　官方文档对test harness的定位很明确，它是把single host和multiple host的测试场景放在一起，综合验证虚拟机、桥接、连接性和连续部署能力。因此回归时不能只看“服务能不能起来”，还要确认这次覆盖的是不是对应的主机规模、网络拓扑和连接验证层级。否则表面上重跑了，其实关键变化点并没有被测到。

　　4、回归结果要以artefacts目录作为主要留痕

　　官方说明里，test harness每次运行都会在artefacts目录下为每个test case建立自己的结果目录，并放入带时间戳的result和state JSON文件，便于比较不同运行之间的差异。也就是说，回归不应只看控制台最后一句pass还是fail，更稳的做法是把artefacts下的结果文件当成回归对比依据。

　　5、失败时不要立刻清环境

　　这是TestbedOS官方测试链路里很有价值的一点。官方明确写到，如果某个test case失败，test harness会停在失败测试上，并保留testbed hosts继续运行，方便开发者检查失败现场。放到回归场景里，这意味着失败后最该做的不是马上清掉环境重跑，而是先利用保留下来的主机状态定位问题。

　　二、Testbed变更后如何自动重跑

　　Testbed变更后如何自动重跑，真正要解决的不是“能不能重复执行命令”，而是“变更发生后，测试有没有自动指向正确的test case和项目目录”。官方文档已经给了自动化重跑的基础条件，也就是kvm-compose必须在目标项目目录下执行，默认读取当前目录中的kvm-compose.yaml；同时test harness本身已经把down再up的连续部署测试纳进流程，这说明TestbedOS的自动重跑并不是外加动作，而是可以直接建立在现有测试机制上的。

　　1、先让变更和test case一起进版本控制

　　官方在kvm-compose架构文档里明确强调，artefacts和yaml多数是文本形式，适合直接做版本管理。要想自动重跑更稳定，最好的方式不是手工挑选文件，而是让yaml、配置和脚本与代码变更一起进入仓库。这样每次提交一发生，自动化流程就能明确知道该跑哪一套test case。

　　2、自动重跑要固定项目目录和输入文件

　　官方usage文档写得很直接，kvm-compose必须在期望的项目目录中运行，默认读取当前目录下的kvm-compose.yaml，也可以通过--input指定别的配置文件。也就是说，自动重跑脚本里最先要固定的，不是down还是up，而是工作目录和输入文件，否则同样一条命令在不同目录下可能根本不是同一个测试。

　　3、把down和up连续执行当成标准重跑动作

　　官方test harness的架构说明里已经明确，单个test case不只是部署一次就结束，而是会在第一次验证后再执行一次down然后up，用来确认consecutive deployments仍然正常。这个设计本身就很适合接到变更后的自动重跑链路里，因为它天然能覆盖“改完之后重新部署还能不能稳定恢复”这一层。

　　4、机器资源要先够，自动重跑才稳定

　　官方文档直接说明，test harness为了覆盖最多三台testbed host的配置，需要每台主机大约5GB内存，总计至少15GB，而官方还建议最好使用32GB机器；若资源不足，可以在run_test_cases.sh中注释或删除三主机测试段。也就是说，自动重跑失败时不要只盯脚本，也要先看机器资源是不是足够承接当前测试规模。

　　5、把自动重跑分成快跑和全跑两档

　　虽然官方文档没有直接给出“快跑”“全跑”这两个名字，但它已经把测试案例按单主机、多主机、完整场景拆开了，而且也允许按脚本内容裁剪高资源测试。更稳的自动化做法通常是，把日常变更先接一档较轻的重跑，把大规模多主机回归留到固定时点再跑。这样既能保留反馈速度，也不会因为一套全量测试把变更节奏拖得太慢。这个做法是根据官方test harness结构和资源要求整理出来的。

　　三、Testbed回归链路怎么收口

　　Testbed回归链路怎么收口，关键不是单次把测试跑过，而是让每次变更后的重跑都能形成稳定结果、可比结果和可追溯结果。很多团队前面已经能手工回归，也能手工重跑，后面还是会乱，根本原因通常不是工具功能不够，而是yaml基线、结果存储和失败处置没有被固化成同一条链。TestbedOS官方在test harness、kvm-compose架构和artefacts组织方式上，其实已经给了比较完整的落脚点。

　　1、先让test case只负责一个清晰场景

　　如果一个test case同时混进太多拓扑、太多机器角色和太多行为验证，后面回归失败时就很难判断到底是哪一类能力退化。更稳的拆法是让每个test case只承载一个清楚的场景边界，这样变更后自动重跑时，也更容易做到精准定位和按需补跑。这个思路和官方把test_cases目录按distinct test case组织的方式是一致的。

　　2、结果统一回收到artefacts

　　官方已经把artefacts作为测试运行产物的固定目录，并在每个test case下按时间戳保存结果和状态文件。真正长期可用的回归链路，不应只靠终端日志，而应让每次自动重跑的结果都稳定回收到artefacts，再拿这些文件做前后对比。这样后面看趋势、看差异和查失败点都会更清楚。

　　3、失败现场保留给定位，不要一失败就清空

　　官方文档明确说明，失败的测试案例会让test harness停住并保留主机运行状态。这意味着回归链路真正成熟时，失败处理不应只返回一个fail状态，而要配套保留环境、读取artefacts和进入现场检查。这样自动重跑才不是“只会报告失败”，而是能把定位入口一起留下来。

　　4、最后把重跑动作固定成项目约定

　　官方已经把yaml、配置、生成artefacts和orchestration的关系定义得很清楚，所以更稳的团队做法，是把“变更后跑哪套test case、跑到哪一层、结果存哪里、失败后怎么查”写成固定约定，而不是每次临时决定。这样Testbed的回归链路才会从“能跑”真正变成“可持续地跑”。这个总结是基于官方测试结构和执行模型整理出来的。

　　总结

　　Testbed单元测试怎么回归，按官方口径更接近基于test harness的集成测试回归，关键是先把yaml、配置和test case目录做成稳定基线，再用artefacts和时间戳结果去做对比。Testbed变更后如何自动重跑，关键则是把项目目录、输入文件、down加up的连续部署测试和资源规模一起固定下来。等这两步都走顺以后，再把Testbed回归链路怎么收口变成团队的固定做法，变更后的自动重跑通常就不会停留在“能执行命令”，而会真正变成一条可比较、可定位、可复用的回归流程。