深度解析:与 Mythos 协作的真实体验
速览
本文深入探讨了与 Mythos 协作的真实体验。内容涵盖了在实际工作场景中与该工具或平台互动的具体细节。通过第一视角的叙述,揭示了其功能特点及对工作效率的影响。
AI 深度解读
与 Mythos 共事:Claude 5 Fable 带来的震撼与不安
背景
近期,Anthropic 发布了新一代 AI 模型系列——Mythos 类模型,其中面向公众发布的初代产品为 Claude 5 Fable。这一发布在科技界引发了广泛关注,尤其是围绕其在软件安全领域可能产生的深远影响。然而,由于安全护栏(guardrails)的限制,Claude 5 Fable 实际上无法直接用于网络安全攻击或防御。
一位早期获得访问权限的用户在 Hacker News 上分享了他对这款模型的深度测试体验。尽管无法涉足其被寄予厚望的安全领域,该用户通过一系列复杂的创意、编码和研究任务,发现 Claude 5 Fable 不仅在性能上大幅超越此前使用过的所有公共模型,更深刻地改变了人类与 AI 的协作关系。这种变化既令人欣喜,又令人不安。
核心内容
性能突破:全方位的显著领先
在多项实验中,Claude 5 Fable 的表现远超其他公共模型。它具备处理复杂问题的广泛能力,甚至能够连续执行长达十二小时的多页规格说明任务。
作者列举了两个极具代表性的案例来展示其能力:
- 学术与社会科学研究:仅通过一个提示词(prompt)和一次反馈,Fable 生成了一篇作者见过的最复杂的 AI 学术社会科学论文。
- 创意写作:创作了一首关于理发的十页史诗级押韵诗,要求每个单词都以字母 "s" 开头。
创意与编码:从零构建可玩游戏
为了更直观地展示其能力,作者让 Fable 在 Claude Code 环境中,通过初始提示词和少量后续反馈(如“让它更好”),生成了一系列可玩的游戏。这些游戏完全由数学代码生成,未使用任何外部图像素材,包括:
- 硬币翻转游戏:基于“Balatro 但用于硬币翻转游戏”的提示,趣味十足。
- 自我意识的贪吃蛇:蛇具有自我意识,导致游戏中出现疯狂的情节。
- 艺术游戏:将德国浪漫主义诗人里尔克的《杜伊诺哀歌》转化为具有特定氛围的艺术游戏。
- 深海探索游戏:关于深入海底探索未知世界的游戏。
这些案例证明,Fable 能够将模糊的指令转化为可工作的、复杂的代码结构。
深度案例:构建等时线地图(Isochrone Map)
为了探究 Fable 的工作机制,作者尝试了一个极具挑战性的任务:构建一个基于真实数据的等时线地图(显示在给定时间内可到达的距离)。这是一个涉及大量研究、判断和决策的复杂任务,此前没有任何 AI 模型能较好地完成。
工作流程:
- 初始指令:作者要求 Fable 构建一个美观、独特的等时线地图,涵盖飞机、火车、步行和驾驶,并基于真实数据(无需实时,但需基于研究)。
- 自主研究与编码:Fable 启动后,首先启动了多个其他 AI 代理(主要是较便宜的 Claude Sonnet)来协助研究旅行时间。它检索了超过 2,200 个具体航班、从 TGV 到 Shinkansen 的铁路时刻表,以及来自多篇学术论文的国家道路速度数据。
- 并行处理:在代理进行研究的同時,Fable 开始编写代码,并启动更多代理和测试来验证代码,同时记录进度。
- 迭代修正:初始结果中,偏远地区(如格陵兰岛)的旅行时间仅为估算值。作者指出问题后,Fable 启动了对抗性代理组(adversarial groups of agents),互相研究并测试结果。它成功查到了前往皮特凯恩岛的船只频率以及从渥太华前往格里斯峡湾的交通方式。
结果与反思: 最终生成的地图功能完整且设计精美,但作者指出,在这个过程中,他几乎完全失去了对细节的控制权。AI 在数百个细微选择上做出了判断(如数据源的取舍、可视化风格等),而作者既不了解这些决策背后的逻辑,也没有机会介入。AI 变成了一个“终极黑盒”。
终极测试:Concord 数据校准软件
作者提出了一个更严肃的科研需求:如何校准人类与 AI 的判断,以分析人类产生的杂乱数据(如评估创意的创新性、书籍受欢迎的原因等)。传统方法需要人类研究者进行判断并进行统计比较,成本高且困难。
作者要求 Fable 解决这个问题。Fable 首先生成了一份 19 页的复杂设计文档,随后执行了 9.5 小时。
- 成果:生成了一款名为 Concord 的复杂软件,能够接收多个数据集,校准人类和 AI 的响应,并对结果进行复杂的数据分析。
- 评价:尽管存在少量错误(作者作为专家进行了修正),但其交付范围和复杂度超出了作者以往所见。这是一项研究人员需要多年但此前因缺乏盈利模式而未开发出的工具。
关键要点
- 性能断层式领先:Claude 5 Fable 在编码、创意写作、学术研究等多个维度上,以显著优势超越了此前所有的公共 AI 模型。
- 超长上下文与持久执行:模型能够连续工作数小时(如 9.5 小时或 12 小时),处理多页规格说明和复杂的多步骤任务,而不会丢失上下文或中断。
- 自主代理协作:Fable 能够自主启动和管理多个子代理(包括调用其他模型如 Claude Sonnet)来分工完成研究、编码和验证任务,展现出类似“团队工作”的能力。
- 从“辅助”到“黑盒”:随着任务复杂度的提升,人类的角色从“指导者”转变为“最终审核者”。AI 在中间过程的决策细节对不可见,人类无法干预其具体的判断逻辑。
- 极高的输出质量与完整性:即使是模糊的初始提示,Fable 也能生成结构完整、可直接运行或使用的代码和文档(如 Concord 软件、等时线地图),大幅减少了人工修正的工作量。
- 情感体验的双重性:用户在使用体验上感到既“愉悦”又“不安”。愉悦于指令即所得的高效,不安于自身控制权的丧失和对 AI 内部逻辑的不可知。
意义与影响
Claude 5 Fable 的发布标志着 AI 从“工具”向“自主执行者”的转变。
- 工作模式的根本性改变:传统的 AI 使用模式是人提供详细步骤,AI 执行片段。而在 Mythos 类模型中,人只需提供高层目标和少量反馈,AI 即可自主规划、研究、编码和迭代。这极大地降低了复杂项目的启动门槛,使得个人开发者或研究人员能够以前所未有的速度构建复杂系统。
- AI 作为“黑盒”的风险:当 AI 能够自主做出数百个细微判断且过程不可见时,其输出的可靠性、偏见来源以及潜在错误将难以追溯。这种“信任但验证”的模式要求用户具备更高的最终审核能力,同时也引发了关于 AI 决策透明度和责任归属的新伦理问题。
- 科研与工程效率的飞跃:像 Concord 这样的工具表明,AI 不再仅仅是生成代码片段,而是能够解决长期存在、因成本过高而未被商业化的复杂科研工程问题。这将加速科学发现和技术创新的进程。
- 人机关系的重新定义:作者提到的“不安感”反映了社会对 AI 能力跃升的心理适应过程。随着 AI 越来越像是一个独立的、拥有自主判断力的合作伙伴,人类需要重新思考自己在协作中的定位——从执行者变为架构师和伦理守门人。
总之,Claude 5 Fable 不仅是一个更聪明的模型,它代表了一种新的交互范式:人类提出愿景,AI 负责实现细节,而人类则专注于方向把控和价值判断。
