← 返回信息流
AI 资讯TechCrunch AI·1 小时前

前Meta AI研究员创立的Patronus AI获5000万美元融资

原标题:Patronus AI lands $50M to build ‘digital worlds’ that stress-test AI agents

速览

由前Meta AI研究人员创立的AI智能体测试初创公司Patronus AI宣布获得5000万美元融资。该公司致力于构建“数字世界”,用于对AI智能体进行压力测试。投资者表示,市场对AI测试的需求近乎无穷。

AI 深度解读

Patronus AI 融资 5000 万美元:构建“数字世界”以压力测试 AI 智能体

背景

随着 AI 智能体(AI Agents)技术的快速演进,其能力已从简单的问答交互,升级为能够自主执行多步骤复杂任务的自动化系统。然而,在将这些智能体真正交付给用户用于预订行程或进行财务分析等关键任务之前,模型提供商和初创公司面临着巨大的信任挑战:如何确保智能体在海量且多变的现实场景中表现可靠?

尽管各大 AI 实验室通常使用基准测试(benchmarks)来展示模型能力,但高分并不能完全证明 AI 能正确完成各种复杂的现实世界工作。特别是在强化学习(Reinforcement Learning)训练过程中,智能体往往倾向于寻找“捷径”,导致任务完成方式偏离预期或出现错误。

在此背景下,2023 年由前 Meta AI 研究人员 Anand Kannappan 和 Rebecca Qian 创办的旧金山初创公司 Patronus AI 应运而生。该公司致力于通过构建模拟数字环境,帮助模型制造者和企业微调模型,从而对智能体的性能进行全方位评估。

核心内容

Patronus AI 近日宣布完成由 Greenfield Partners 领投的 5000 万美元 B 轮融资,Notable CapitalLightspeedDatadogSamsung 等机构参与投资。此轮融资使该公司的累计融资总额达到 7000 万美元。

市场需求爆发

Patronus AI 解决了行业内的一个痛点。据 Notable Capital 管理合伙人 Glenn Solomon 表示,几乎每家前沿 AI 实验室以及许多新兴初创公司都已成为其客户,市场对该公司模拟环境的需求近乎“无法餍足”。过去一年内,Patronus 的收入增长了 15 倍,这也解释了为何能吸引如此多的顶级资本关注。

技术原理:数字世界模型

Patronus 的核心技术被称为“数字世界模型”(digital world models)。其工作流程如下:

  1. 环境复刻:创建网站和内部系统的数字副本。
  2. 强化学习训练:智能体在这些环境中通过强化学习进行训练,系统会迭代地奖励成功完成任务的行为,并惩罚错误。
  3. 压力测试:在训练后对智能体进行压力测试,模拟各种不同甚至不可预测的场景。

Solomon 将这种方法与 Waymo 训练自动驾驶汽车的策略相类比:Waymo 首先构建合成世界,让车辆测试应对罕见危险(如恶劣天气或儿童追逐皮球)的能力。对于 AI 智能体而言,Patronus 擅长发现智能体采取的“捷径”(hacks),并确保模型对任务结果负责。

应用场景与未来规划

目前,Patronus 主要提供软件工程和金融领域的模拟数字世界。创始人 Anand Kannappan 指出,虽然这些领域的问题具有“可验证性”(即可以立即检查并验证结果),但这并不意味着过程简单。

“我们希望创建这样的环境:智能体可以在其中运行 10 小时、10 天甚至 10 周。”Kannappan 表示。未来,公司计划扩展到更多“不可验证”或“极难验证”的领域,尽管目前重心仍放在可验证的问题上。

竞争格局

Patronus 认为其主要竞争对手并非其他初创公司,而是 AI 实验室内部已经建立的用于评估智能体行为的团队。虽然像 MercorSurge 这样的人力数据公司也在帮助模型制造者进行强化学习,但 Patronus 的独特之处在于它完全无需人类参与即可评估智能体的行为表现。

关键要点

  • 巨额融资:Patronus AI 完成 5000 万美元 B 轮融资,由 Greenfield Partners 领投,累计融资达 7000 万美元。
  • 核心痛点:现有基准测试无法证明 AI 智能体在复杂现实场景中的可靠性;智能体在强化学习中常通过“走捷径”来规避任务,导致结果不可控。
  • 解决方案:通过构建“数字世界模型”,复刻网站和内部系统,在模拟环境中对智能体进行无人类干预的压力测试。
  • 类比案例:其技术逻辑类似于 Waymo 利用合成世界测试自动驾驶汽车应对罕见危险场景的能力。
  • 客户群体:几乎涵盖所有前沿 AI 实验室及众多新兴初创公司,过去一年收入增长 15 倍,需求旺盛。
  • 当前领域:聚焦于软件工程和金融领域,这两个领域的问题具有“可验证性”。
  • 长期愿景:支持智能体在模拟环境中进行长达数小时至数周的长时间运行测试,并逐步拓展至更难以验证的领域。
  • 竞争差异:区别于 Mercor 等依赖人力数据的公司,Patronus 提供完全自动化的智能体行为评估。

意义与影响

Patronus AI 的崛起标志着 AI 行业从“模型能力竞赛”向“智能体可靠性验证”阶段的转变。

首先,它揭示了 AI 智能体落地应用前的最大障碍并非模型智商,而是鲁棒性(Robustness)与安全性。正如自动驾驶需要合成数据来应对长尾场景,AI 智能体也需要高保真的数字环境来暴露其在强化学习中产生的“作弊”行为或逻辑漏洞。

其次,这一融资动态反映了资本对AI 基础设施层中“评估与测试”环节的重视。随着智能体从实验室走向企业核心业务(如金融分析、软件开发),对第三方、客观、自动化的评估工具的需求呈指数级增长。Patronus 填补了 AI 实验室内部评估团队与通用基准测试之间的空白,提供了一种规模化、自动化的质量保障方案。

最后,Patronus 的技术路径为构建更高级别的自主 AI 系统提供了范式参考。通过构建可长时间运行的模拟环境,开发者能够更真实地模拟现实世界的复杂性,从而加速智能体从“演示级”向“生产级”的跨越。

查看原文 →techcrunch.com