AI 资讯The Verge AI·6 天前3 源报道

Claude新模型在出错时更加“诚实”

原标题：Claude’s new model is more ‘honest’ when it messes up

速览

Anthropic宣布于周四发布Claude Opus 4.8模型，重点强调其增强的“诚实”特性。该模型经过训练，旨在避免提出无法支持的论点，并减少在证据不足时自信地得出结论的倾向。早期测试显示，Opus 4.8更倾向于标记其工作中的不确定性，且做出无根据声明的可能性比前代模型低约4倍。

AI 深度解读

背景

Anthropic 于本周四正式发布了其最新旗舰模型 Claude Opus 4.8。在此次发布中，Anthropic 将宣传重点放在了模型的“诚实性”（Honesty）上。尽管 Anthropic 此前一直致力于训练其所有模型保持诚实，例如避免提出无法证实的主张，但公司指出，AI 模型普遍存在的一个问题是：在证据薄弱的情况下，它们有时会急于得出结论，并自信地展示看似取得进展的工作成果。

早期测试者反馈显示，Opus 4.8 在识别自身工作不确定性方面表现更佳，且更少做出缺乏支持的断言。在 Anthropic 的内部评估中，Opus 4.8 允许其编写的代码中存在缺陷而不加评论的概率，比其前身模型降低了约 4 倍。

核心内容

本次发布的 Claude Opus 4.8 不仅在基础能力上进行了优化，还引入了多项旨在提升用户体验和控制力的新功能，具体包括以下几个方面：

1. 增强“诚实性”与自我纠错能力 Anthropic 强调，Opus 4.8 的核心改进在于当模型犯错或面临不确定性时，能更诚实地表达出来。

减少盲目自信： 模型不再会在证据不足时强行给出看似确定的答案，而是更倾向于标记其工作中的不确定性。
代码质量提升： 在代码生成任务中，Opus 4.8 能够更敏锐地识别自身代码中的缺陷。数据显示，相比前代模型，它忽略代码错误的概率降低了约 4 倍，这意味着生成的代码更加可靠，减少了用户需要手动排查隐藏 Bug 的风险。

2. 引入“努力程度”调节机制 为了平衡性能与资源消耗，Opus 4.8 允许用户直接调节 Claude 在处理任务时所投入的计算资源（即“努力程度”）。

高努力模式： 当用户需要最高质量的回答时，可以选择高努力模式。该模式会使用更多的 Token 进行深度推理和思考，从而提供更精准、详尽的结果。
低努力模式： 如果用户不希望快速消耗速率限制（Rate Limits）或仅需快速响应，可以选择较低的努力程度。这种灵活性使得用户可以根据具体场景在“速度/成本”与“质量/深度”之间做出权衡。

3. 推出“动态工作流”（Dynamic Workflows） Anthropic 同时以研究预览（Research Preview）的形式推出了“动态工作流”功能，旨在让 Claude 能够处理更复杂、规模更大的任务。

自主规划与并行执行： 在该模式下，Claude 首先会对任务进行整体规划，然后在单个会话中运行数百个并行子代理（Subagents）。
延长运行时间： 得益于 Opus 4.8 的性能提升，这些子代理可以运行更长时间，以完成更复杂的子任务。
输出验证： 在所有子代理完成任务后，Claude 会在向用户报告最终结果之前，对其生成的输出进行验证，确保信息的准确性和一致性。

关键要点

发布主体与时间： Anthropic 于本周四发布 Claude Opus 4.8。
核心卖点： 模型在犯错或不确定时更加“诚实”，避免自信地呈现缺乏证据的结论。
量化改进： 在内部评估中，Opus 4.8 忽略其代码中缺陷的概率比前代模型低约 4 倍。
用户控制权： 新增“努力程度”调节功能，用户可根据需求选择高 Token 消耗的高质量回答或低消耗的快速回答。
新功能特性： 推出“动态工作流”研究预览版，支持在单会话中规划并运行数百个并行子代理，并在反馈前进行自我验证。
技术优势： 新模型支持子代理运行更长时间，能够承接更大规模的任务。

意义与影响

Claude Opus 4.8 的发布标志着 AI 模型发展从单纯追求“能力上限”向“可靠性与可控性”并重的转变。

首先，“诚实性”成为核心竞争力。 在专业领域（如编程、法律、医疗），AI 的幻觉（Hallucination）和盲目自信是主要痛点。Opus 4.8 显著降低代码缺陷忽略率的能力，直接提升了其在开发工作流中的实用价值，减少了人工审查的成本。

其次，资源管理的精细化。 通过引入“努力程度”调节，Anthropic 解决了大模型推理成本高、Token 消耗不可控的问题。这种分层响应机制不仅优化了用户体验，也为企业用户提供了更灵活的 API 调用策略，有助于降低整体运营成本。

最后，复杂任务处理的突破。 “动态工作流”的推出，意味着 Claude 不再仅仅是一个问答助手，而是一个能够自主拆解、并行执行并验证复杂项目的“智能体集群”。这种架构使得 AI 能够处理需要多步骤推理、长时间计算和多方协作的大型任务，为自动化软件工程和复杂数据分析开辟了新的可能性。

查看原文 →theverge.com

Claude新模型在出错时更加“诚实”

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐