Waveloop:Fable留给我的宝贵财富
速览
Waveloop创始人撰文回顾在Fable的工作经历,阐述其如何影响新公司的产品理念与技术路径。文章深入探讨了AI交互设计中的用户信任构建难题,以及从失败中提炼出的核心原则。这些经验为正在构建AI原生产品的团队提供了难得的实践参考。
AI 深度解读
背景
这篇文章来自 Hacker News,作者分享了自己使用 AI 模型 Fable 5 开发一个名为 Waveloop 的音乐可视化工具的经历。Fable 5 是一个已经下线的模型,作者通过回顾代码和项目,总结了 Fable 5 的独特之处。Waveloop 的核心目标是让音乐的和声与旋律结构以直观、可感的方式呈现出来——这是作者从记事起就有的一个白日梦。
核心内容
Waveloop 是什么
Waveloop 是一个音乐可视化工具。大多数音乐可视化器只能让你大致感受到音量大小,或许还能区分低音和高音,仅此而已。作者认为这远远不够。
Waveloop 的设计基于西方十二平均律的核心数学原理:相邻半音之间的频率比为 ¹²√2。十二个半音构成一个八度,相差整数个八度的音符被视为同一个音级(pitch class)。
Waveloop 用一个色环(chromatic circle)来捕捉这种循环结构——每个半音占 30°,每八度旋转一周。音乐中的任意瞬间被呈现为一个螺旋堆叠直方图,展示每个音级的能量分布。直方图的不同层用不同颜色表示不同八度:低音用沉静的蓝绿色,中音用炽热的橙红色和紫色,高音用闪亮的金色和天蓝色,色彩在 oklch 色彩空间中沿螺旋轨迹过渡。
这种表示方式有几个优雅的特性:
- 音程可以直接读作角度——五度是 210°,三度是 90°,一目了然。
- 和弦的性质可以从其形状判断——转位(transposition)旋转形状,倒影(inversion)则保持形状不变。
Waveloop 主要离线运行,预先计算一首曲目的 CQT(常数 Q 变换)。Fable 5 还实现了一个实时麦克风模式,作者发现它能快速、可靠地识别自己弹奏的尤克里里和弦。
Fable 5 的代码风格
Fable 5 下线约一周后,作者重新审视了 Waveloop 的代码,第一感受是:极度稠密(dense)。
作者将过去的模型比作"FAANG 里一个体面的、稳步晋升的工程师,一路爬到 L5 到头",而 Fable 5 写代码的方式更像是 Terry Davis(传奇程序员 TempleOS 的作者)独自在房间里写代码的状态。
文中展示了一段文件头注释,这段注释信息密度极高,几乎像是意图的"锁定文件(lockfile)"——原则上可以从这段注释反推出整个代码。注释中随手引用了 alpha 预乘(alpha premultiplication)、基频(fundamental frequency)、CDF、FFT、AGC 等专业术语,同时文学性极强——将 12 个音级类比为钟面上的 12 个刻度,噪声"徘徊(linger)",物质"从边缘喷涌而出(surges off the rim)"。
文中还展示了一个和弦检测函数 detectChord(),代码简洁而扎实:遍历 12 个根音 × 8 种和弦性质,用加权音级匹配分数来识别和弦,并过滤掉能量过于分散的情况。
用 Fable 制作讲解视频
作者还让 Fable 用 manim(数学动画引擎)制作了一个讲解 Waveloop 数学原理的视频。第一版提示词非常随意,结果"当然是辣鸡"。经过多轮迭代反馈——更换 TTS 语音、减少噪音、增加与画面匹配的音效、压缩基础内容、增加深度、让脚本更口语化、减少文字、用可视化代替幻灯片式呈现——最终产出了令人满意的视频。
关键要点
- Waveloop 的核心创新:用色环上的角度表示音程、用形状表示和弦性质,让音乐结构真正"可视"。
- 色彩设计:在 oklch 色彩空间中,低音→中音→高音沿螺旋轨迹从蓝绿过渡到橙红再到金色,色彩连续而非分段。
- Fable 5 的代码风格极其稠密:注释信息量巨大,技术深度与文学性兼具,不回避任何专业术语和类比。
- Fable 5 的工程能力:和弦检测函数简洁可靠,实时麦克风模式能准确识别尤克里里和弦。
- Fable 5 的多模态能力:不仅能写代码,还能配合 manim 生成数学动画视频,经过迭代可达到较高品质。
- 作者的感慨:Fable 5 下线后,作者通过回顾代码来怀念这个模型,暗示 Fable 5 的能力在当时的模型中相当突出。
意义与影响
这篇文章表面上是一个项目分享,实质上是一篇对 Fable 5 的"悼文"。作者通过展示 Fable 5 产出的代码质量、技术深度和创造力,间接勾勒出了一个理想 AI 编程助手的画像:它不只是写"正确"的代码,而是以极高的信息密度、独特的个人风格和跨领域知识融合来完成任务。
Waveloop 本身也提出了一个值得思考的问题:音乐可视化是否应该超越"音量柱状图"的层面,真正揭示音乐的数学与和声结构?作者的答案是肯定的——而且借助 AI,一个人两天之内就能把这个白日梦变成现实。
