测试边界
Skill Test 关注
Section titled “Skill Test 关注”- 触发是否准确;
- 执行步骤是否完整;
- 输出格式是否稳定;
- 是否识别缺失信息;
- 是否避免幻觉;
- 是否输出可回流的失败信息;
- 是否遵守职责边界;
Skill Test 不关注
Section titled “Skill Test 不关注”- 真实代码是否最终修复成功;
- 真实服务是否可用;
- 真实测试环境是否稳定;
这些应由 Agent Eval、Hook Test 或 Workflow Eval 负责。
这些应由 Agent Eval、Hook Test 或 Workflow Eval 负责。