AI 资讯TechCrunch AI·1 小时前

Probably融资900万美元打造更可靠的AI

原标题：Probably raises $9M to build a more reliable kind of AI

速览

Probably公司宣布完成900万美元融资，致力于构建更可靠的AI系统。其核心目标是防止幻觉和事实错误传递给用户，并实现与确定性系统相当的准确性。此举旨在解决当前生成式AI在可信度方面的关键痛点。

AI 深度解读

背景

随着大型语言模型（LLM）能力的不断跃升，其固有的“幻觉”问题——即模型生成看似合理但事实错误或毫无根据的内容——依然顽固难除。即便是在最顶尖的模型中，错误也时有发生。虽然行业内存在多种检测错误的方法，但如何以最高效、最可靠的方式捕捉并消除这些错误，整个行业仍在探索最佳实践。

在此背景下，初创公司 Probably 刚刚完成了由 Andreessen Horowitz (a16z) 领投的 900 万美元种子轮融资。该公司的核心愿景是构建一种更为严谨的机制，旨在从源头上防止幻觉和简单的事实错误触达用户，力求实现传统确定性系统中常见的 99.99% 准确率，而这在 AI 领域通常被认为极难达成。

核心内容

Probably 的首款产品是一款面向数据科学领域的工具，旨在从复杂数据集中快速生成答案。与许多 AI 工具仅提供结果不同，Probably 的每个输出都附带引用来源以及详细的审计轨迹（audit trail），清晰展示答案是如何生成的。

为了实现这一目标，创始人 Peter Elias 开发了一套被称为“数据科学机甲服”（data science mech suit）的复杂约束系统。该系统的工作流程如下：

LLM 首先生成初步答案。
该答案随即被送入一个确定性验证器系统（deterministic validator system）进行核对。
任何与数据集不匹配的结果都会被系统驳回。

值得注意的是，LLM 在训练阶段就针对该验证器进行了优化，整个系统的设计目标是兼顾速度与准确性。Elias 指出，构建这套系统的核心洞察在于：“你的约束工程（harness engineering）做得越好，所需的模型能力就可以越弱。” 如果上下文足够精炼，模型就不需要付出巨大努力也能做出正确判断，这本质上是一个减少歧义的过程。

这种架构带来了显著的效率优势。Probably 的数据科学工具可以运行在显著更小、性能更弱的 AI 模型上。Elias 透露，当前版本运行的模型性能比前沿模型（frontier models）低四个数量级。这意味着该工具可以在本地硬件（如桌面电脑）上运行，而无需依赖昂贵的数据中心，从而大幅降低了与 AI 使用相关的 Token 成本。

在 Token 成本上升、许多客户重新评估 AI 预算的当下，这一思路颇具吸引力。此外，该引擎的应用范围不仅限于数据科学，还可以扩展至会计、医疗服务等任何对精度敏感的场景。

Elias 还批评了大型 AI 实验室的态度，他认为这些巨头甚至没有尝试解决这一问题，因为他们的商业模式依赖于用户反复修正模型错误，从而产生更多的 Token 消耗。

关键要点

融资背景：Probably 获得 Andreessen Horowitz 领投的 900 万美元种子轮融资，致力于解决 AI 幻觉问题。
核心目标：通过严格的约束系统，防止幻觉和事实错误触达用户，追求接近确定性系统的 99.99% 准确率。
技术创新：
- 引入“数据科学机甲服”概念，结合 LLM 与确定性验证器。
- LLM 针对验证器进行训练，系统整体优化以快速、准确输出。
- 每个答案均附带引用和审计轨迹，增强可解释性。
工程洞察：“约束工程”的质量决定了所需模型的能力上限。通过精炼上下文和减少歧义，可以使用更弱的模型实现高精度。
成本与部署优势：
- 可使用比前沿模型弱四个数量级的模型。
- 支持本地硬件（桌面端）部署，摆脱对数据中心的依赖。
- 大幅降低 Token 成本，适应当前企业缩减 AI 预算的趋势。
应用场景扩展：除了数据科学，该引擎可应用于会计、医疗等任何对精度敏感（precision-sensitive）的领域。
行业批判：Elias 指出，大型 AI 实验室缺乏动力解决此问题，因为其商业模式建立在用户需反复修正错误的 Token 消耗之上。

意义与影响

Probably 的崛起代表了 AI 工程范式的一种潜在转变：从单纯依赖模型规模的指数级增长，转向通过更优秀的工程架构和约束机制来提升可靠性。

首先，“小模型+强约束”的路径为 AI 的普惠化提供了新的经济模型。在 Token 成本日益高昂的今天，能够利用本地硬件运行、大幅降低推理成本的技术方案，对于希望将 AI 集成到核心业务流程（如财务审计、医疗诊断）中的企业具有极高的吸引力。它证明了在特定垂直领域，无需最前沿的模型也能实现超越人类平均水平的准确性和可靠性。

其次，对“幻觉”问题的重新定义具有深远影响。传统观点往往试图通过增加模型参数或优化提示词来减少幻觉，而 Probably 提出的确定性验证机制则从根本上改变了这一逻辑：不追求模型本身的全知全能，而是通过外部校验确保输出结果的绝对正确性。这种“人机协作”或“模型与验证器协作”的模式，可能成为高可靠性 AI 应用的标准配置。

最后，揭示了当前大模型厂商的商业悖论。正如 Elias 所言，如果错误被彻底消除，基于 Token 消耗的商业模式将受到挑战。这可能促使行业反思：未来的 AI 服务是否应从“按次付费”转向“按结果付费”或“订阅制”，从而激励厂商真正致力于提供零错误的确定性服务，而非仅仅提供概率性的最佳猜测。Probably 的实践或许将成为推动这一商业模式变革的重要催化剂。

查看原文 →techcrunch.com

Probably融资900万美元打造更可靠的AI

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐