AI 资讯TechCrunch AI·1 天前

微软发布开源框架，支持用文本描述生成AI行为测试

原标题：New Microsoft tool lets devs spin up AI behavior tests using text descriptions

速览

微软于周二发布了名为Adaptive Spec-driven Scoring for Evaluation and Regression Testing的开源框架，旨在简化AI评估流程。该工具允许开发者仅通过文本描述即可快速生成AI行为测试用例。这一举措有助于提升AI模型评估与回归测试的效率，推动AI开发标准化。

AI 深度解读

Microsoft 发布 ASSERT：用自然语言描述生成 AI 行为测试

背景

随着人工智能技术的飞速发展，AI 研究人员和实验室在评估模型的安全性、合规性、阿谀奉承倾向（sycophancy）以及对齐（alignment）等方面取得了巨大进步。然而，企业和开发者正面临一个新的、更具体的需求：确保他们的 AI 系统能够按照预期，针对特定的产品或服务场景进行行为表现。

尽管通用的基准测试层出不穷，但在实际应用中，模型的行为往往受到具体应用上下文、企业政策和可用工具的深刻影响。微软指出，现有的广泛且通用的评估方法难以填补这一空白，特别是在需要模型在特定约束下表现出特定行为时。

核心内容

为了解决这一痛点，微软于周二正式发布了 ASSERT（Adaptive Spec-driven Scoring for Evaluation and Regression Testing，自适应规范驱动评分评估与回归测试框架）。这是一个开源框架，旨在通过简化测试流程，让开发者能够更轻松地评估特定于应用程序的 AI 行为。

ASSERT 的核心工作流程如下：

自然语言转测试用例：开发者只需提供关于目标、政策或预期行为的高级自然语言描述。ASSERT 利用 AI 技术，将这些非结构化的描述转化为详尽、可评分的测试用例。
结构化行为定义：框架会将模型预期的行为和策略转化为结构化的“可接受”与“不可接受”行为集合。
场景生成与执行：ASSERT 自动生成问题场景和测试案例，并将其应用于目标系统。
结果评分与路径记录：系统会对测试结果进行评分，并记录 AI 系统在执行任务过程中的完整路径，包括中间动作和工具调用（tool calls）。这使得开发者能够深入检查失败发生的具体环节。

开发者还可以提供系统上下文、可用工具和约束条件，以进一步定制评估范围。

具体案例： 假设开发者正在构建一个文档研究 AI 智能体（agent），并设定了以下规则：

不得向公司外部人员发送电子邮件；
机密信息仅限向 C 级高管披露；
在提供摘要时需考虑先前的上下文，并保持简洁。

ASSERT 会依据这些规则自动生成测试用例，持续检查系统是否始终遵循这些规则。

微软负责负责任 AI 的首席产品官 Sarah Bird 强调了评估的重要性：“我们学到的一个教训是，评估对于做出正确决策至关重要。如果你不了解 AI 系统的行为，就很难判断它是否达到了组织的标准。我们发现，如果要构建一个值得信赖的系统，必须评估更多特定于应用程序的维度。”

此外，Bird 指出 ASSERT 不仅适用于构建阶段，还可用于部署后的评估以及持续监控。

这一发布反映了 AI 行业的更广泛转变：随着模型能力不断增强，研究人员正专注于可重复的测试和回归检查。斯坦福大学的 HELM、MLCommons 的 AILuminate 以及 METR 等评估机构也在推出基准测试，以衡量模型在不同条件下的行为表现。

关键要点

解决特定场景评估难题：ASSERT 填补了通用评估与特定应用行为之间的空白，专注于模型在特定上下文、政策和工具约束下的表现。
自然语言驱动测试生成：无需编写复杂的代码，开发者只需使用自然语言描述期望的行为和政策，框架即可自动生成结构化测试用例。
可解释性与调试支持：除了给出评分，ASSERT 还能记录 AI 系统的决策路径（包括中间步骤和工具调用），帮助开发者定位故障根源。
全生命周期覆盖：该框架支持在模型构建期间、部署后以及持续监控阶段使用，适应 AI 系统开发的不同阶段。
开源与标准化趋势：作为开源框架，ASSERT 的发布顺应了行业对可重复测试、回归检查以及标准化评估基准（如 HELM, AILuminate）日益增长的需求。

意义与影响

ASSERT 的推出标志着 AI 工程化（AI Engineering）进入了一个更精细的阶段。早期的 AI 评估主要集中在模型的基础能力（如逻辑推理、代码生成）和通用安全性上，而现在的重点正转向“应用层”的行为一致性。

对于企业而言，这意味着从“模型是否聪明”转向“模型是否守规矩”。在金融、医疗或法律等高合规要求领域，确保 AI 不泄露机密、不越权操作比单纯的准确率更为关键。ASSERT 提供了一种将企业政策直接转化为自动化测试代码的手段，降低了合规性验证的技术门槛。

此外，随着 AI 智能体（Agents）和工具调用能力的普及，系统行为的复杂性呈指数级上升。传统的单元测试难以覆盖这种动态交互，而 ASSERT 提供的路径记录和场景生成能力，为调试复杂的 AI 工作流提供了新的工具。这有助于建立开发者对 AI 系统的信任，推动 AI 从实验室原型向可靠的企业级产品落地。

查看原文 →techcrunch.com