Agent SkillLINUX DO · AI·1 小时前

很多人并没有建立 AI 时代的底层思维

速览

文章从 LLM 推理的 Token 滑动到低洼点的物理比喻出发，阐述 AI 世界存在的底层物理哲学。提示词工程并非简单技巧，而是对语义空间势能的精准塑造。通过语义锚点减少无效描述和中英混杂形成稳定锚点，可大幅提升输出确定性和长链任务表现。这为提示词工程提供了第一性原理，帮助开发者突破表面概念，真正掌握 AI 生成力。

AI 深度解读

很多人并没有建立 AI 时代的底层思维

背景

几乎每个月，网上都会涌现出一些新的术语，如提示词工程、上下文工程、Harness 工程……很多概念都只是流于表面，简单分享我的思维模型。

核心内容

以 LLM 的推理阶段作为切入点，引入 AI 物理学的概念。我们知道，Token 在向量空间中本质上是高维的离散点。为了方便理解，可以将其抽象为一个俯视的地势图。

每次从山顶释放一颗小球，它会在重力势能下顺着山坡滑落，最终滚进某个低洼的山谷并停下来。在 Transformer 的推理过程中，每生成一个词，就像是放下一个小球。小球最终停在低洼点，代表了采样的词（比如 Token = 学）。

在实际对话中，AI 需要输出一连串的词。每当一个小球落入某个山谷，它自身的“重量”就会压弯地面，每个小球静止后，都会引起空间势能面的形变，进而改变整个势能空间，从而影响后续采样小球在该空间中的运动轨迹。

比如，可以把一次采样过程看成这样：

第一颗小球落在 [学]，它的重量改变了地表形状；

第二颗小球在变形后的山坡上滚落，滑进了 [AI]；

地势再次发生形变，第三颗小球滚入 [上]…

以此类推，直到小球最终滚进 <EOS> 程序停止，并形成完整的话：

学 ai 上 Linuxdo

这就是单轮对话的过程，当我们开启下一轮对话，输入新的提问，比如 [为] [什么] 时，这些新 token 会作为人为放置的重物，形成上下文空间。

以上是简化的 LLM 推理过程。实际的 AI 物理学要复杂得多。

高维空间。实际的语义空间维度高达数千维，且不同模型的空间稠密度与势能分布存在差异。

非连续性。Token 在空间中是离散分布的，势能空间不是光滑的，而是由无数网格组成。

Temperature 对采样的影响。在高 Temperature 下，粒子运动活跃，采样结果更具随机性；在低 Temperature 下，粒子运动受限，纯靠势能驱动，采样结果更趋于固定。

Token 间的斥力。例如 Transformer 中的 Frequency Penalty（频率惩罚）机制，就是模拟粒子间的斥力避免进入死循环。

运动时的阻尼或摩擦力。例如 Layer Normalization 和 Dropout 机制在信息流动的网络中起到类似空气阻力或阻尼器的作用。

探讨 AI 物理学会有系统的结构体系，等以后有时间再写文章专门细说。既然现在大家已经有了基础的物理学概念，那我就来抛出一些使用技巧的第一性原理。

本质上，提示词工程就是对语义空间的势能塑造。

语义锚点
这里的重点不是少说话，而是减少无效扰动。
当无法明确表达时，我们往往会用很长的自然语言去描绘一个模糊的场景，而实际上，这个场景可能只需几个关键词即可精准概括。

关键词：爱因斯坦相对论时空弯曲科普通俗易懂
冗余描述：请你用最通俗易懂、连小学生都能听懂的话，帮我稍微解释一下爱因斯坦的相对论到底讲了什么？主要是时空弯曲，不要用复杂的公式。

理想状态下存在极限信息密度，每个输入的 Token 都以 100% 的效率指向下一个目标 Token 的概率分布。实际对话中几乎无法实现，语言符号本身具有多义性，必要的描述则作为关键的约束。

因此，在实操中尽可能保持高信息密度不仅是为了节省 token 成本，也是为了长链任务过程中维持确定性，防止语义漂移。一旦对话在极早阶段采样到了一个稍微偏离预期的 Token，这个偏离的 Token 就会作为新的“引力源”，在后续的采样中产生滚雪球效应——长链任务难题。

在让 AI 生成一段 Tailwind CSS 的复杂页面布局时，上下文夹杂了噪声：“我以前常用 Bootstrap”
单点偏离发生在极早阶段。由于“Bootstrap”这个强特征词的存在，模型在生成页面最外层容器时发生偏离，采样输出了 class="row"（Bootstrap 语法）而不是 Tailwind 的 class="grid grid-cols-12"。

这个初始 Token（row）瞬间改变了后续的势能面，形成长链漂移。为了维持代码在上下文中的自洽性，模型在接下来的几十行代码中，被迫沿着 Bootstrap 的逻辑继续采样，输出 col-md-6、col-lg-4 等类名。

中英混杂
LLM 在预训练阶段吸收了 GitHub 上几乎所有的开源前端框架、设计系统和 W3C 标准。
英文术语在这里不是装饰，而是更稳定的语义锚点。

因此，英文专业术语在模型高维空间中的语义锚点会极其收敛且精准。但是基于物理学模型我们可以延伸出更深入的技巧，中英夹杂方式在 Self-Attention 计算中，这种语境切换会产生一种“势能落差”。

纯中文：帮我写一个搜索输入框，用户输入时要做防抖处理，并在下方展示一个悬浮提示框。
中英夹杂：帮我写一个搜索输入框，用户输入时要做 Debounce 处理，并在下方通过 Popover 展示搜索结果。

中文内突然插入的 Debounce 和 Popover 两个英文词汇，在学术和开源代码语料中具有极高的收敛度，在势能面上瞬间形成极深的重力井

在分词器中，英文专业词汇通常是一个完整且高频的 Token；而中文短语往往会被切碎成多个低频的子字符。这种实体密度的落差，在注意力矩阵中天然会吸引更多的计算权重。

讨论主线是想带大家洞悉 AI 世界存在的底层物理哲学。

关键要点

以 LLM 推理过程比喻为小球在高维向量空间俯视地势图中滑落，最终停留在低洼谷底（对应采样词，如 “学”），后续词生成会因先前词“重量”压弯地势，改变后续轨迹。
实际 AI 物理学涉及高维非连续语义空间（维度数千）、Temperature 影响采样随机性与确定性、Token 间斥力（Frequency Penalty）、网络阻尼（Layer Normalization、Dropout）。
提示词工程本质是塑造语义空间势能，核心技巧为“语义锚点”（用关键词而非冗长描述，减少无效扰动与语义漂移）和“中英混杂”（利用英文专业术语在模型中的收敛锚点特性，结合 Self-Attention 产生势能落差）。
实际应用示例：长链代码生成中早期噪声词（如 “Bootstrap”）引发 Bootstrap 类名滚雪球式输出；中英夹杂可提升英文词汇作为高频 Token 的权重与注意力吸引。

意义与影响

这一解读为 AI 提示词与上下文工程提供了底层物理哲学框架——将提示工程从表面技巧提升为对语义空间势能的精准塑造，避免了概念流于形式化的风险。理解这些机制有助于开发者在长链任务中维持确定性、减少漂移，同时在实际生成（如 CSS 布局、搜索组件）中精准锚定输出方向，降低 token 浪费与错误累积。长期来看，这类第一性原理可系统化推动提示工程发展，并为后续复杂体系（如 AI 物理学结构）奠定基础，真正帮助用户在 AI 时代洞悉而非盲目追随新术语。

查看原文 →linux.do

很多人并没有建立 AI 时代的底层思维

速览

AI 深度解读

很多人并没有建立 AI 时代的底层思维

背景

核心内容

关键要点

意义与影响

相关推荐