Evaluation-first
可以先理解为:先定义验收和失败标准再构建AI功能的方法
Evaluation-first 是先定义评估目标、验收标准和失败边界,再去构建 AI 功能的方法。它把“先做出来看看”改成“先知道怎样算真的有用”。
关键结构图
左侧先写 eval targets,箭头进入构建和模型选择,再回到 Private evals 与 validation gates 形成循环。
What
Evaluation-first 是 AI 产品和 agent 工作流里的方法原则:在 prompt、模型、工具链或 UI 之前,先明确任务成功标准、不可接受错误、测试样本、人工验收方式和回归检查。它尤其适合高不确定性场景,因为模型输出看起来顺滑不代表可靠。
When
当一个 AI 功能准备从 demo 进入自用或上线时,就应该切到 Evaluation-first。
How
写下目标任务、成功样例、失败样例、不可接受错误、人工验收口径和复跑频率。然后再选模型、设计 prompt 和写产品流程。
Examples
做 daily brick automation 时,先规定 Public Brick Card 必须通过 reader-ready gate,再讨论候选抽取和部署。
做客服 agent 前,先定义哪些问题必须升级人工、哪些承诺不能说,再去调模型回答风格。
来源
类型:评估实践 / 方法整理
事实线:这张卡把「Evaluation-first」整理为可公开复用的Method: Evaluation-first 是 AI 产品和 agent 工作流里的方法原则:在 prompt、模型、工具链或 UI 之前,先明确任务成功标准、不可接受错误、测试样本、人工验收方式和回归检查。
依据:来自 2026-06-09 AI 内参中围绕模型产品、私有评估和构建流程的材料提炼。
边界:适用于 AI 产品、agent、自动化和模型选择;不要求每个创意探索一开始就建立完整 benchmark。
常见误读:不要把 Evaluation-first 误读成先写一堆形式化指标。它的重点是先定义可验收的真实任务。