← 返回信息流
AI 资讯TechCrunch AI·1 小时前

Probably融资900万美元打造更可靠的AI

原标题:Probably raises $9M to build a more reliable kind of AI

速览

Probably公司宣布完成900万美元融资,致力于构建更可靠的AI系统。其核心目标是防止幻觉和事实错误传递给用户,并实现与确定性系统相当的准确性。此举旨在解决当前生成式AI在可信度方面的关键痛点。

AI 深度解读

背景

随着大型语言模型(LLM)能力的不断跃升,其固有的“幻觉”问题——即模型生成看似合理但事实错误或毫无根据的内容——依然顽固难除。即便是在最顶尖的模型中,错误也时有发生。虽然行业内存在多种检测错误的方法,但如何以最高效、最可靠的方式捕捉并消除这些错误,整个行业仍在探索最佳实践。

在此背景下,初创公司 Probably 刚刚完成了由 Andreessen Horowitz (a16z) 领投的 900 万美元种子轮融资。该公司的核心愿景是构建一种更为严谨的机制,旨在从源头上防止幻觉和简单的事实错误触达用户,力求实现传统确定性系统中常见的 99.99% 准确率,而这在 AI 领域通常被认为极难达成。

核心内容

Probably 的首款产品是一款面向数据科学领域的工具,旨在从复杂数据集中快速生成答案。与许多 AI 工具仅提供结果不同,Probably 的每个输出都附带引用来源以及详细的审计轨迹(audit trail),清晰展示答案是如何生成的。

为了实现这一目标,创始人 Peter Elias 开发了一套被称为“数据科学机甲服”(data science mech suit)的复杂约束系统。该系统的工作流程如下:

  1. LLM 首先生成初步答案。
  2. 该答案随即被送入一个确定性验证器系统(deterministic validator system)进行核对。
  3. 任何与数据集不匹配的结果都会被系统驳回。

值得注意的是,LLM 在训练阶段就针对该验证器进行了优化,整个系统的设计目标是兼顾速度与准确性。Elias 指出,构建这套系统的核心洞察在于:“你的约束工程(harness engineering)做得越好,所需的模型能力就可以越弱。” 如果上下文足够精炼,模型就不需要付出巨大努力也能做出正确判断,这本质上是一个减少歧义的过程。

这种架构带来了显著的效率优势。Probably 的数据科学工具可以运行在显著更小、性能更弱的 AI 模型上。Elias 透露,当前版本运行的模型性能比前沿模型(frontier models)低四个数量级。这意味着该工具可以在本地硬件(如桌面电脑)上运行,而无需依赖昂贵的数据中心,从而大幅降低了与 AI 使用相关的 Token 成本。

在 Token 成本上升、许多客户重新评估 AI 预算的当下,这一思路颇具吸引力。此外,该引擎的应用范围不仅限于数据科学,还可以扩展至会计、医疗服务等任何对精度敏感的场景。

Elias 还批评了大型 AI 实验室的态度,他认为这些巨头甚至没有尝试解决这一问题,因为他们的商业模式依赖于用户反复修正模型错误,从而产生更多的 Token 消耗。

关键要点

  • 融资背景:Probably 获得 Andreessen Horowitz 领投的 900 万美元种子轮融资,致力于解决 AI 幻觉问题。
  • 核心目标:通过严格的约束系统,防止幻觉和事实错误触达用户,追求接近确定性系统的 99.99% 准确率。
  • 技术创新
    • 引入“数据科学机甲服”概念,结合 LLM 与确定性验证器。
    • LLM 针对验证器进行训练,系统整体优化以快速、准确输出。
    • 每个答案均附带引用和审计轨迹,增强可解释性。
  • 工程洞察:“约束工程”的质量决定了所需模型的能力上限。通过精炼上下文和减少歧义,可以使用更弱的模型实现高精度。
  • 成本与部署优势
    • 可使用比前沿模型弱四个数量级的模型。
    • 支持本地硬件(桌面端)部署,摆脱对数据中心的依赖。
    • 大幅降低 Token 成本,适应当前企业缩减 AI 预算的趋势。
  • 应用场景扩展:除了数据科学,该引擎可应用于会计、医疗等任何对精度敏感(precision-sensitive)的领域。
  • 行业批判:Elias 指出,大型 AI 实验室缺乏动力解决此问题,因为其商业模式建立在用户需反复修正错误的 Token 消耗之上。

意义与影响

Probably 的崛起代表了 AI 工程范式的一种潜在转变:从单纯依赖模型规模的指数级增长,转向通过更优秀的工程架构和约束机制来提升可靠性。

首先,“小模型+强约束”的路径为 AI 的普惠化提供了新的经济模型。在 Token 成本日益高昂的今天,能够利用本地硬件运行、大幅降低推理成本的技术方案,对于希望将 AI 集成到核心业务流程(如财务审计、医疗诊断)中的企业具有极高的吸引力。它证明了在特定垂直领域,无需最前沿的模型也能实现超越人类平均水平的准确性和可靠性。

其次,对“幻觉”问题的重新定义具有深远影响。传统观点往往试图通过增加模型参数或优化提示词来减少幻觉,而 Probably 提出的确定性验证机制则从根本上改变了这一逻辑:不追求模型本身的全知全能,而是通过外部校验确保输出结果的绝对正确性。这种“人机协作”或“模型与验证器协作”的模式,可能成为高可靠性 AI 应用的标准配置。

最后,揭示了当前大模型厂商的商业悖论。正如 Elias 所言,如果错误被彻底消除,基于 Token 消耗的商业模式将受到挑战。这可能促使行业反思:未来的 AI 服务是否应从“按次付费”转向“按结果付费”或“订阅制”,从而激励厂商真正致力于提供零错误的确定性服务,而非仅仅提供概率性的最佳猜测。Probably 的实践或许将成为推动这一商业模式变革的重要催化剂。

查看原文 →techcrunch.com