苏炜杰加入OpenAI:Scaling Law撞墙后为何需数学家出手
速览
宾夕法尼亚大学统计学教授苏炜杰宣布加入OpenAI参与模型训练。他认为在Scaling Law撞墙、高质量数据枯竭的背景下,仅靠工程经验已无法突破,需引入数学与统计学理论解决不确定性问题。苏炜杰指出,OpenAI成熟的Infra使理论研究者能进行大规模实验验证,这标志着AI行业能力重心正从纯工程向理论深度迁移。
AI 深度解读
背景
当前,人工智能大模型的发展正步入一片“没有地图的深水区”。随着 Scaling Law(缩放定律)遭遇瓶颈、高质量人类数据接近枯竭,以及 AI 可解释性难题仍未解决,行业逐渐进入“后 Scaling 时代”。在这一阶段,单纯依靠工程经验和算力堆叠已难以突破关键瓶颈,行业开始意识到需要更深层次的理论支撑。
在此背景下,宾夕法尼亚大学沃顿商学院统计学教授、2026 COPSS 会长奖得主苏炜杰宣布加入 OpenAI,参与模型训练相关工作。苏炜杰是统计学界 40 岁以下最高荣誉 14 年来首位华人获得者,其学术履历横跨高维统计、机器学习理论、因果推断、差分隐私与生成式 AI。他的加入被视为 AI 行业从“工程驱动”向“理论驱动”转型的一个标志性事件,也反映了前沿实验室对基础科学研究的重视。
核心内容
苏炜杰的加入并非偶然,其直接契机源于去年 12 月 OpenAI 研究员 Sebastien Bubeck 的邀请。Bubeck 在学术界时期便关注苏炜杰在优化问题方面的工作。苏炜杰认为,在 Frontier Lab(前沿实验室)级别,Infra(基础设施)已相对成熟,Coding Agent 普及,这使得提出好假设、设计实验和定义评估指标的重要性超过了单纯的编码能力。他选择离开学术界顶峰投身 OpenAI,并非为了脱离学术,而是为了在拥有大规模算力和真实场景的环境中,彻底解决那些在学术界受限于实验条件而无法验证的基础问题。
在访谈中,苏炜杰针对大模型领域的几个核心痛点进行了深度解读:
关于 Scaling Law 的上限 苏炜杰认为 Scaling Law 不会有一个完备的绝对上限答案,因为数据并非良定义的单一变量。不同数据的信息密度、任务结构和长尾覆盖差异巨大。当前的核心挑战在于,由 AI 引擎生成的新数据,其“智力密度”能否维持模型能力的继续扩展,这需要实证研究来回答。
关于“对齐税”与越对齐越笨 为了让模型符合人类安全规范,RLHF(人类反馈强化学习)往往以牺牲微观数据分布为代价,导致推理和生成能力下降,即“对齐税”。苏炜杰指出,虽然不同指标间存在此消彼长,但随着模型基础能力的增强,对齐带来的负面影响是可以降低的。他借用物理学类比,认为大模型如同巨大的物理系统,理论在微观(如 Muon 优化器)和宏观(如 Scaling Law)尺度容易成功,但最难的是介于二者之间的“介观尺度”,那里涉及数据、模型、任务和人类反馈的复杂相互作用。
关于合成数据与模型崩溃 针对大规模使用 AI 生成合成数据可能导致模型崩溃的风险,苏炜杰认为,直接、不加处理地反复使用合成数据确实会导致数据分布变窄,类似封闭系统的熵增退化。但这并不意味着合成数据不可行,关键在于是否在生成和筛选过程中加入了人类先验和环境反馈,使系统成为“带反馈的开放系统”,从而避免退化。
关于思维链(Chain of Thought)的本质 对于思维链带来的推理跃升,苏炜杰曾思考过反面方案(减少 Token 直接输出),但认为其错误。他解释称,复杂问题的答案往往不存在于清晰的直接路径中,而是需要经过看似不正确的多步思考才能找到。这反映了世界的不完美性和绝对理性的不存在。
学术界与业界的互补 苏炜杰指出,美国高校与业界联系紧密,教授们自发将科研与 AI 发展结合。他认为目前 AI 智能呈现“博远超人类,精不及专家”的特点,而学术界则“精益求精有余,广博略显不足”。两者的深度协作是未来 AI 持续进化,尤其是专业领域能力提升的关键。
关键要点
- 行业转折点:AI 行业正从依赖算力堆叠的工程时代,转向需要统计学、应用数学和物理学理论支撑的深水区。
- 人才流动信号:顶尖统计学家和数学家加入 OpenAI,表明理论功底在开发 AI 模型中的优势将被放大,尤其是处理不确定性、数据分布和评估能力。
- 数据质量重于数量:Scaling Law 的有效性取决于数据的“智力密度”而非单纯规模,AI 生成数据的价值需通过实证研究验证。
- 缓解对齐税:随着模型基础能力提升,RLHF 带来的能力下降影响可被降低;理论突破点在于解决微观与宏观之间的“介观尺度”复杂相互作用。
- 合成数据的路径:模型崩溃源于封闭系统的熵增,解决之道在于引入人类先验和环境反馈,构建开放的数据生成系统。
- 思维链的哲学解释:思维链的有效性源于复杂问题答案的非线性特征,反映了现实世界的不完美性。
- 产学研互补:业界擅长广度与工程落地,学界擅长深度与理论严谨,未来 AI 的专业化突破离不开两者的深度协作。
意义与影响
苏炜杰加入 OpenAI 不仅是个人职业选择的转变,更是 AI 行业能力重心迁移的缩影。它标志着解决大模型深层瓶颈(如可解释性、数据效率、对齐机制)不再仅仅依赖工程技巧,而是需要回归数学和统计学的底层逻辑。
这一趋势预示着未来 AI 研发将更加重视基础理论研究,统计学、应用数学和物理学背景的人才将在模型架构设计、训练策略优化和数据治理中扮演更核心的角色。同时,这也打破了外界对学术界与业界存在“高墙”的刻板印象,展示了两者在解决复杂 AI 问题上的互补性与融合趋势。对于整个行业而言,这意味着在 Scaling Law 放缓的背景下,通过理论创新挖掘数据价值、优化训练过程,将成为突破 AGI 瓶颈的新路径。
