← 返回信息流
AI 资讯TechCrunch AI·1 天前

微软发布开源框架,支持用文本描述生成AI行为测试

原标题:New Microsoft tool lets devs spin up AI behavior tests using text descriptions

速览

微软于周二发布了名为Adaptive Spec-driven Scoring for Evaluation and Regression Testing的开源框架,旨在简化AI评估流程。该工具允许开发者仅通过文本描述即可快速生成AI行为测试用例。这一举措有助于提升AI模型评估与回归测试的效率,推动AI开发标准化。

AI 深度解读

Microsoft 发布 ASSERT:用自然语言描述生成 AI 行为测试

背景

随着人工智能技术的飞速发展,AI 研究人员和实验室在评估模型的安全性、合规性、阿谀奉承倾向(sycophancy)以及对齐(alignment)等方面取得了巨大进步。然而,企业和开发者正面临一个新的、更具体的需求:确保他们的 AI 系统能够按照预期,针对特定的产品或服务场景进行行为表现。

尽管通用的基准测试层出不穷,但在实际应用中,模型的行为往往受到具体应用上下文、企业政策和可用工具的深刻影响。微软指出,现有的广泛且通用的评估方法难以填补这一空白,特别是在需要模型在特定约束下表现出特定行为时。

核心内容

为了解决这一痛点,微软于周二正式发布了 ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing,自适应规范驱动评分评估与回归测试框架)。这是一个开源框架,旨在通过简化测试流程,让开发者能够更轻松地评估特定于应用程序的 AI 行为。

ASSERT 的核心工作流程如下:

  1. 自然语言转测试用例:开发者只需提供关于目标、政策或预期行为的高级自然语言描述。ASSERT 利用 AI 技术,将这些非结构化的描述转化为详尽、可评分的测试用例。
  2. 结构化行为定义:框架会将模型预期的行为和策略转化为结构化的“可接受”与“不可接受”行为集合。
  3. 场景生成与执行:ASSERT 自动生成问题场景和测试案例,并将其应用于目标系统。
  4. 结果评分与路径记录:系统会对测试结果进行评分,并记录 AI 系统在执行任务过程中的完整路径,包括中间动作和工具调用(tool calls)。这使得开发者能够深入检查失败发生的具体环节。

开发者还可以提供系统上下文、可用工具和约束条件,以进一步定制评估范围。

具体案例: 假设开发者正在构建一个文档研究 AI 智能体(agent),并设定了以下规则:

  • 不得向公司外部人员发送电子邮件;
  • 机密信息仅限向 C 级高管披露;
  • 在提供摘要时需考虑先前的上下文,并保持简洁。

ASSERT 会依据这些规则自动生成测试用例,持续检查系统是否始终遵循这些规则。

微软负责负责任 AI 的首席产品官 Sarah Bird 强调了评估的重要性:“我们学到的一个教训是,评估对于做出正确决策至关重要。如果你不了解 AI 系统的行为,就很难判断它是否达到了组织的标准。我们发现,如果要构建一个值得信赖的系统,必须评估更多特定于应用程序的维度。”

此外,Bird 指出 ASSERT 不仅适用于构建阶段,还可用于部署后的评估以及持续监控。

这一发布反映了 AI 行业的更广泛转变:随着模型能力不断增强,研究人员正专注于可重复的测试和回归检查。斯坦福大学的 HELM、MLCommons 的 AILuminate 以及 METR 等评估机构也在推出基准测试,以衡量模型在不同条件下的行为表现。

关键要点

  • 解决特定场景评估难题:ASSERT 填补了通用评估与特定应用行为之间的空白,专注于模型在特定上下文、政策和工具约束下的表现。
  • 自然语言驱动测试生成:无需编写复杂的代码,开发者只需使用自然语言描述期望的行为和政策,框架即可自动生成结构化测试用例。
  • 可解释性与调试支持:除了给出评分,ASSERT 还能记录 AI 系统的决策路径(包括中间步骤和工具调用),帮助开发者定位故障根源。
  • 全生命周期覆盖:该框架支持在模型构建期间、部署后以及持续监控阶段使用,适应 AI 系统开发的不同阶段。
  • 开源与标准化趋势:作为开源框架,ASSERT 的发布顺应了行业对可重复测试、回归检查以及标准化评估基准(如 HELM, AILuminate)日益增长的需求。

意义与影响

ASSERT 的推出标志着 AI 工程化(AI Engineering)进入了一个更精细的阶段。早期的 AI 评估主要集中在模型的基础能力(如逻辑推理、代码生成)和通用安全性上,而现在的重点正转向“应用层”的行为一致性。

对于企业而言,这意味着从“模型是否聪明”转向“模型是否守规矩”。在金融、医疗或法律等高合规要求领域,确保 AI 不泄露机密、不越权操作比单纯的准确率更为关键。ASSERT 提供了一种将企业政策直接转化为自动化测试代码的手段,降低了合规性验证的技术门槛。

此外,随着 AI 智能体(Agents)和工具调用能力的普及,系统行为的复杂性呈指数级上升。传统的单元测试难以覆盖这种动态交互,而 ASSERT 提供的路径记录和场景生成能力,为调试复杂的 AI 工作流提供了新的工具。这有助于建立开发者对 AI 系统的信任,推动 AI 从实验室原型向可靠的企业级产品落地。

查看原文 →techcrunch.com