AI 资讯Hacker News·1 小时前

Anthropic发布Project Glasswing项目更新

原标题：Anthropic's Project Glasswing Update

速览

Anthropic近日发布了关于Project Glasswing项目的最新进展。该项目旨在提升大语言模型的安全性和对齐能力。此次更新展示了公司在AI安全领域的持续投入和最新成果。

今年四月，Anthropic 启动了名为 Project Glasswing 的计划。该计划的核心构想是允许企业利用 Anthropic 新推出的模型来发现并修复其自身软件中的安全漏洞。

从公关角度来看，这是一次极其成功的操作。众多媒体未经批判性地复述了 Anthropic 的宣传口径，导致目前业界形成了一种普遍认知：Anthropic 的模型（文中暗示为 Mythos）在发现软件漏洞方面的能力优于其他模型。然而，这种被广泛接受的“常识”实际上并不符合事实。

Anthropic 近日发布了一份关于 Project Glasswing 的状态报告。报告指出，该项目确实在软件中发现了大量漏洞，其中部分漏洞甚至具有危险性。

然而，报告揭示了一个令人困惑的现象：尽管发现了这么多漏洞，但几乎没有任何一个漏洞得到了修复。这种“只发现、不修复”的局面显得非常怪异，且背后的数据逻辑令人费解。

文章作者对此提出了强烈的质疑，主要痛点在于 Anthropic 拒绝公开详细的技术细节和数据。Anthropic 仅要求外界“信任我们”，这种缺乏透明度的做法被视为该项目存在的重大问题。

公关效应大于实质验证：Anthropic 通过 Project Glasswing 成功塑造了其模型在安全漏洞发现方面领先于竞争对手的形象，但这种形象主要建立在媒体未经核实的报道之上，而非公认的技术事实。
发现与修复脱节：虽然报告确认发现了大量（包括高危）软件漏洞，但几乎零修复率表明该流程在闭环解决上存在严重缺失，或者数据本身存在误导性。
透明度缺失引发信任危机：Anthropic 拒绝披露具体漏洞细节和验证数据，仅以“信任我们”作为回应，这种做法加剧了外界对其数据真实性和项目有效性的怀疑。
对“模型优于其他模型”论调的反驳：原文明确指出，目前关于 Anthropic 模型在漏洞发现能力上优于其他模型的普遍看法是错误的，缺乏实证支持。

这一事件反映了当前 AI 安全领域的一个典型困境：宣传叙事与技术现实之间的鸿沟。

对 AI 安全评估标准的警示：在缺乏第三方审计和详细数据披露的情况下，仅凭厂商自述的“发现漏洞数量”来评估模型能力是危险的。Project Glasswing 的案例提醒行业，必须建立更严格、透明的基准测试和验证机制。
企业采用 AI 安全工具的谨慎态度：对于希望利用 AI 进行代码审计的企业而言，此案例表明需要警惕厂商的营销话术。如果 AI 工具只能“发现”问题而无法提供可操作的修复路径，或者其发现结果无法被独立验证，那么其实际价值将大打折扣。
信任机制的重构：在 AI 领域，“信任我们”已不再是一个可接受的承诺。随着模型能力的提升，数据的可解释性、结果的复现性以及过程的透明度将成为衡量技术可靠性的关键指标。Anthropic 此次的回应方式可能会对其在安全领域的公信力造成长期损害。