← 返回信息流
Agent SkillLINUX DO · AI·1 小时前

很多人并没有建立 AI 时代的底层思维

速览

文章从 LLM 推理的 Token 滑动到低洼点的物理比喻出发,阐述 AI 世界存在的底层物理哲学。提示词工程并非简单技巧,而是对语义空间势能的精准塑造。通过语义锚点减少无效描述和中英混杂形成稳定锚点,可大幅提升输出确定性和长链任务表现。这为提示词工程提供了第一性原理,帮助开发者突破表面概念,真正掌握 AI 生成力。

AI 深度解读

很多人并没有建立 AI 时代的底层思维

背景

几乎每个月,网上都会涌现出一些新的术语,如提示词工程、上下文工程、Harness 工程……很多概念都只是流于表面,简单分享我的思维模型。

核心内容

以 LLM 的推理阶段作为切入点,引入 AI 物理学的概念。我们知道,Token 在向量空间中本质上是高维的离散点。为了方便理解,可以将其抽象为一个俯视的地势图。

每次从山顶释放一颗小球,它会在重力势能下顺着山坡滑落,最终滚进某个低洼的山谷并停下来。在 Transformer 的推理过程中,每生成一个词,就像是放下一个小球。小球最终停在低洼点,代表了采样的词(比如 Token = 学)。

在实际对话中,AI 需要输出一连串的词。每当一个小球落入某个山谷,它自身的“重量”就会压弯地面,每个小球静止后,都会引起空间势能面的形变,进而改变整个势能空间,从而影响后续采样小球在该空间中的运动轨迹。

比如,可以把一次采样过程看成这样:

第一颗小球落在 [学],它的重量改变了地表形状;

第二颗小球在变形后的山坡上滚落,滑进了 [AI];

地势再次发生形变,第三颗小球滚入 [上]…

以此类推,直到小球最终滚进 <EOS> 程序停止,并形成完整的话:

学 ai 上 Linuxdo

这就是单轮对话的过程,当我们开启下一轮对话,输入新的提问,比如 [为] [什么] 时,这些新 token 会作为人为放置的重物,形成上下文空间。

以上是简化的 LLM 推理过程。实际的 AI 物理学要复杂得多。

高维空间。实际的语义空间维度高达数千维,且不同模型的空间稠密度与势能分布存在差异。

非连续性。Token 在空间中是离散分布的,势能空间不是光滑的,而是由无数网格组成。

Temperature 对采样的影响。在高 Temperature 下,粒子运动活跃,采样结果更具随机性;在低 Temperature 下,粒子运动受限,纯靠势能驱动,采样结果更趋于固定。

Token 间的斥力。例如 Transformer 中的 Frequency Penalty(频率惩罚)机制,就是模拟粒子间的斥力避免进入死循环。

运动时的阻尼或摩擦力。例如 Layer Normalization 和 Dropout 机制在信息流动的网络中起到类似空气阻力或阻尼器的作用。

探讨 AI 物理学会有系统的结构体系,等以后有时间再写文章专门细说。既然现在大家已经有了基础的物理学概念,那我就来抛出一些使用技巧的第一性原理。

本质上,提示词工程就是对语义空间的势能塑造。

  1. 语义锚点
    这里的重点不是少说话,而是减少无效扰动。
    当无法明确表达时,我们往往会用很长的自然语言去描绘一个模糊的场景,而实际上,这个场景可能只需几个关键词即可精准概括。

关键词:爱因斯坦 相对论 时空弯曲 科普 通俗易懂
冗余描述:请你用最通俗易懂、连小学生都能听懂的话,帮我稍微解释一下爱因斯坦的相对论到底讲了什么?主要是时空弯曲,不要用复杂的公式。

理想状态下存在极限信息密度,每个输入的 Token 都以 100% 的效率指向下一个目标 Token 的概率分布。实际对话中几乎无法实现,语言符号本身具有多义性,必要的描述则作为关键的约束。

因此,在实操中尽可能保持高信息密度不仅是为了节省 token 成本,也是为了长链任务过程中维持确定性,防止语义漂移。一旦对话在极早阶段采样到了一个稍微偏离预期的 Token,这个偏离的 Token 就会作为新的“引力源”,在后续的采样中产生滚雪球效应——长链任务难题。

在让 AI 生成一段 Tailwind CSS 的复杂页面布局时,上下文夹杂了噪声:“我以前常用 Bootstrap”
单点偏离发生在极早阶段。由于“Bootstrap”这个强特征词的存在,模型在生成页面最外层容器时发生偏离,采样输出了 class="row"(Bootstrap 语法)而不是 Tailwind 的 class="grid grid-cols-12"。

这个初始 Token(row)瞬间改变了后续的势能面,形成长链漂移。为了维持代码在上下文中的自洽性,模型在接下来的几十行代码中,被迫沿着 Bootstrap 的逻辑继续采样,输出 col-md-6、col-lg-4 等类名。

  1. 中英混杂
    LLM 在预训练阶段吸收了 GitHub 上几乎所有的开源前端框架、设计系统和 W3C 标准。
    英文术语在这里不是装饰,而是更稳定的语义锚点。

因此,英文专业术语在模型高维空间中的语义锚点会极其收敛且精准。但是基于物理学模型我们可以延伸出更深入的技巧,中英夹杂方式在 Self-Attention 计算中,这种语境切换会产生一种“势能落差”。

纯中文:帮我写一个搜索输入框,用户输入时要做防抖处理,并在下方展示一个悬浮提示框。
中英夹杂:帮我写一个搜索输入框,用户输入时要做 Debounce 处理,并在下方通过 Popover 展示搜索结果。

中文内突然插入的 Debounce 和 Popover 两个英文词汇,在学术和开源代码语料中具有极高的收敛度,在势能面上瞬间形成极深的重力井

在分词器中,英文专业词汇通常是一个完整且高频的 Token;而中文短语往往会被切碎成多个低频的子字符。这种实体密度的落差,在注意力矩阵中天然会吸引更多的计算权重。

讨论主线是想带大家洞悉 AI 世界存在的底层物理哲学。

关键要点

  • 以 LLM 推理过程比喻为小球在高维向量空间俯视地势图中滑落,最终停留在低洼谷底(对应采样词,如 “学”),后续词生成会因先前词“重量”压弯地势,改变后续轨迹。
  • 实际 AI 物理学涉及高维非连续语义空间(维度数千)、Temperature 影响采样随机性与确定性、Token 间斥力(Frequency Penalty)、网络阻尼(Layer Normalization、Dropout)。
  • 提示词工程本质是塑造语义空间势能,核心技巧为“语义锚点”(用关键词而非冗长描述,减少无效扰动与语义漂移)和“中英混杂”(利用英文专业术语在模型中的收敛锚点特性,结合 Self-Attention 产生势能落差)。
  • 实际应用示例:长链代码生成中早期噪声词(如 “Bootstrap”)引发 Bootstrap 类名滚雪球式输出;中英夹杂可提升英文词汇作为高频 Token 的权重与注意力吸引。

意义与影响

这一解读为 AI 提示词与上下文工程提供了底层物理哲学框架——将提示工程从表面技巧提升为对语义空间势能的精准塑造,避免了概念流于形式化的风险。理解这些机制有助于开发者在长链任务中维持确定性、减少漂移,同时在实际生成(如 CSS 布局、搜索组件)中精准锚定输出方向,降低 token 浪费与错误累积。长期来看,这类第一性原理可系统化推动提示工程发展,并为后续复杂体系(如 AI 物理学结构)奠定基础,真正帮助用户在 AI 时代洞悉而非盲目追随新术语。

查看原文 →linux.do