Skip to content

测试边界

  • 触发是否准确;
  • 执行步骤是否完整;
  • 输出格式是否稳定;
  • 是否识别缺失信息;
  • 是否避免幻觉;
  • 是否输出可回流的失败信息;
  • 是否遵守职责边界;
  • 真实代码是否最终修复成功;
  • 真实服务是否可用;
  • 真实测试环境是否稳定;

这些应由 Agent Eval、Hook Test 或 Workflow Eval 负责。