你听过这些AI术语却似懂非懂?我们来彻底搞懂它们
速览
随着人工智能的快速发展,行业内外涌现出大量新的术语和行话。本文整理了一份术语表,旨在解释读者可能遇到的最重要词汇和短语。这有助于澄清概念,避免误解。
AI 深度解读
背景
人工智能正在重塑世界,与此同时,它也在发明一套全新的语言来描述其运作方式。在科技领域,只需花五分钟阅读关于 AI 的新闻,你就会遇到 LLM(大型语言模型)、RAG(检索增强生成)、RLHF(基于人类反馈的强化学习)等数十个术语,这些词汇甚至会让科技界许多聪明的人感到不安或困惑。
TechCrunch AI 发布了一份旨在消除这种认知障碍的术语表。随着该领域的不断演进,这份文档被视为一份“活文档”,正如它所描述的 AI 系统一样,会定期更新。本文旨在帮助读者理清这些核心概念,从 AGI 到微调,从推理模型到生成对抗网络,提供一份全面且易懂的解读。
核心内容
AGI(通用人工智能)
AGI 是一个模糊但宏大的概念,通常指在大多数甚至所有任务中,能力超过普通人类的 AI。对于其定义,行业巨头们各有侧重:
- OpenAI CEO Sam Altman 将其描述为“相当于你可以雇佣为同事的中等水平人类”。
- OpenAI 的章程 将其定义为“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。
- Google DeepMind 的理解略有不同,认为 AGI 是“在大多数认知任务中与人类至少同样 capable(有能力的)的 AI”。 事实上,连前沿的 AI 研究人员对这些定义也感到困惑,这反映了该领域定义的流动性。
AI Agent(AI 智能体)
AI 智能体是指利用 AI 技术代表用户执行一系列任务的工具,其能力超越了基础 AI 聊天机器人。例如,它可以报销费用、预订机票或餐厅座位,甚至编写和维护代码。
- 核心特征:这是一个自主系统,可能调用多个 AI 系统来执行多步骤任务。
- 现状:这是一个新兴领域,基础设施仍在建设中,因此“AI 智能体”对不同人可能意味着不同的事物。但其基本概念指向能够自主发现并使用 API 端点,从而实现强大自动化能力的系统。
API Endpoints(API 端点)
可以将 API 端点想象成软件背后的“按钮”,其他程序可以通过按下这些按钮来让软件执行操作。
- 作用:开发者利用这些接口构建集成,例如允许一个应用程序从另一个应用程序拉取数据,或使 AI 智能体能够直接控制第三方服务,而无需人类手动操作每个界面。
- AI 的影响:随着 AI 智能体能力的增强,它们越来越多地能够自主发现和使用这些端点,从而开启了强大(有时甚至是意想不到的)自动化可能性。
Chain of Thought(思维链)
人类在处理简单问题(如“长颈鹿和猫哪个更高?”)时往往不需要深思,但在处理复杂逻辑或数学问题(如鸡兔同笼问题)时,通常需要借助纸笔进行中间步骤的推导。
- AI 中的定义:在大型语言模型中,思维链推理意味着将问题分解为较小的中间步骤,以提高最终结果的质量。
- 优势与代价:虽然获取答案的时间更长,但在逻辑或编程语境下,答案更可能是正确的。推理模型正是基于传统大型语言模型开发,并通过强化学习优化以支持思维链思考。
Coding Agents(编程智能体)
这是“AI 智能体”的一个更具体概念,指能够自主逐步采取行动以完成目标的程序。
- 功能:与仅仅建议代码供人类审查不同,编程智能体可以自主编写、测试和调试代码,处理通常消耗开发者大量时间的迭代和试错工作。
- 能力:它们可以在整个代码库中操作,发现错误、运行测试并推送修复方案,只需极少的人工监督。
- 比喻:就像雇佣了一个从不睡觉、从不分心的极快实习生——尽管像任何实习生一样,人类仍需审查其工作。
Compute(算力)
尽管是一个多义词,但 Compute 通常指允许 AI 模型运行的关键计算能力。
- 硬件基础:该术语常作为提供计算能力的硬件类型的简称,如 GPU(图形处理器)、CPU(中央处理器)、TPU(张量处理器)以及其他构成现代 AI 行业基石的基础设施。
- 作用:这种处理能力为 AI 行业提供了训练和部署强大模型的能力。
Deep Learning(深度学习)
深度学习是自我改进机器学习的一个子集,其 AI 算法设计采用多层人工神经网络(ANN)结构。
- 灵感来源:其结构灵感来源于人类大脑中神经元的互连路径。
- 优势:相比线性模型或决策树等简单机器学习系统,深度学习能做出更复杂的关联。它允许模型自行识别数据中的重要特征,而非依赖人类工程师定义这些特征。
- 学习机制:支持算法从错误中学习,通过重复和调整过程改善自身输出。
- 代价:深度学习系统需要大量数据点(数百万以上)才能产生良好结果,且训练时间通常比简单机器学习算法长,导致开发成本较高。
Diffusion(扩散模型)
扩散技术是许多艺术、音乐和文本生成 AI 模型的核心。
- 原理:受物理学启发,扩散系统通过添加噪声来缓慢“破坏”数据结构(如照片、歌曲),直到一无所有。在物理学中,扩散是自发的且不可逆的(如糖在咖啡中扩散后无法恢复成方块)。
- AI 的逆向过程:AI 中的扩散系统旨在学习一种“逆向扩散”过程,以恢复被破坏的数据,从而获得从噪声中恢复数据的能力。
Distillation(知识蒸馏)
知识蒸馏是一种用于从大型 AI 模型中提取知识的技术,采用“师生模型”架构。
- 过程:开发者向“教师模型”发送请求并记录输出。这些输出有时会与数据集进行比较以评估准确性,随后用于训练“学生模型”,使其近似教师模型的行为。
- 目的:创建基于大型模型但更小、更高效的模型,同时保持最小的蒸馏损失。OpenAI 开发 GPT-4 Turbo(GPT-4 的更快版本)很可能使用了此技术。
- 注意:虽然所有 AI 公司都在内部使用蒸馏,但来自竞争对手的蒸馏通常违反 AI API 和聊天助手的条款。
Fine-tuning(微调)
微调是指对 AI 模型进行进一步训练,以优化其在比先前训练重点更具体的任务或领域中的表现。
- 方法:通常通过输入新的、专门的(即面向任务的)数据来实现。
- 应用:许多 AI 初创公司以大语言模型为起点构建商业产品,并通过基于自身领域特定知识和专业知识的微调来补充早期的训练周期,从而提升针对目标行业或任务的实用性。
GAN(生成对抗网络)
GAN 是一种机器学习框架,支撑着生成 AI 中产生逼真数据的重要发展,包括(但不限于)深度伪造(deepfake)工具。
- 架构:涉及一对神经网络的协同工作。一个网络(生成器)利用其训练数据生成输出,并将其传递给另一个网络(判别器)进行评估。
- 对抗机制:这两个模型本质上被编程为试图胜过对方。生成器试图让它的输出通过判别器的检验,而判别器则试图识别出生成的假数据。
关键要点
- 术语的流动性:AI 领域术语定义尚不统一,尤其是 AGI,不同巨头(OpenAI, Google DeepMind)有不同解读,甚至专家也感到困惑。
- 从聊天到行动:AI 正从单纯的对话(Chatbot)向自主执行多步骤任务的智能体(Agent)演进,这需要依赖 API 端点和强大的基础设施。
- 推理能力的提升:通过“思维链”和强化学习,AI 模型在处理逻辑和代码时,通过分解步骤提高了准确性,尽管这增加了计算时间。
- 算力的核心地位:Compute(算力)是 AI 行业的燃料,主要体现为 GPU、TPU 等硬件基础设施,是训练和部署模型的基础。
- 效率与优化的平衡:
- 知识蒸馏用于将大模型能力迁移到小模型,以提升速度和效率(如 GPT-4 Turbo)。
- 微调用于让通用模型适应特定垂直领域,提升商业实用性。
- **生成技术的多样性
