技术博客arXiv cs.AI·3 小时前

具身智能引擎自主设计硬件兼容大模型压缩方案

原标题：Agentic evolution of physically constrained foundation models

速览

研究提出一种物理约束下的多智能体发现引擎，利用进化知识图谱将随机搜索转化为定向结构演化。该引擎自主设计了Q-Enhance和MoE-Salient-AQ两种压缩方法，性能超越人工启发式策略。成功将2350亿参数模型部署于双A100服务器，内存需求降低75%且精度损失极小。

AI 深度解读

Agentic evolution of physically constrained foundation models：物理约束下的智能体进化

背景

人工智能（AI）正日益成为推动自动化科学发现的核心动力。然而，当前的通用智能体（Generalist Agents）普遍缺乏“物理根基”（Physical Grounding）。在涉及硬件设计的场景中，这些智能体往往会产生“幻觉”，设计出在物理硬件上无法兼容或无法实现的方案。这种缺乏物理约束的盲目搜索，不仅效率低下，而且难以落地。

特别是在基础模型（Foundation Models）的部署阶段，面临着极其严苛的物理边界限制，如显存容量、带宽和算力密度。传统的自动化发现方法通常依赖无约束的组合搜索或人类专家的经验启发式规则，这在面对千亿级参数模型时显得力不从心。因此，如何构建一个既能自主探索、又严格遵循物理硬件约束的发现引擎，成为当前 AI for Science 领域亟待解决的关键问题。

核心内容

本文提出了一种基于物理根基的多智能体发现引擎（Physically Grounded, Multi-Agent Discovery Engine），旨在自主架构符合硬件规范的计算系统。该框架通过引入“进化知识图谱”（Evolutionary Knowledge Graph），将过去的科学创新成果结构化，从而提取出“算法思维链”（Algorithmic Chain-of-Thought）。这一机制将原本盲目的随机搜索转化为有方向的结构性进化，实现了从“无约束组合搜索”到“知识驱动自主性”的范式转变。

该引擎在基础模型部署这一极端测试平台上进行了应用，并取得了以下突破性成果：

硬件感知的压缩方法论：
- Q-Enhance：针对密集模型（Dense Models），该方法有效缓解了长上下文场景下的精度损失问题。
- MoE-Salient-AQ：在低于 3-bit 的极低比特 regimes 下，该设计超越了目前最先进的（State-of-the-art）人工设计的稀疏混合专家（Sparse Mixture-of-Experts, MoE）方案，性能提升了 3.7%。
大规模模型的受限部署：
- 利用一种带宽高效的“敏感性配置文件”（Sensitivity Profile），研究团队成功将一款拥有 2350 亿参数（235-billion-parameter）的巨型模型部署到了受限于双 A100 显卡（Dual-A100）的服务器上。
- 在仅造成 0.64% 微小精度下降的情况下，内存需求降低了 75%。

这一成果证明了通过知识引导而非盲目搜索，可以在严格的物理边界内实现可扩展的软硬件协同设计（Hardware-Software Co-design）。

关键要点

物理根基缺失是痛点：现有通用 AI 智能体因缺乏物理约束，常生成硬件不兼容的设计，导致自动化科学发现受阻。
进化知识图谱驱动：框架核心在于利用“进化知识图谱”结构化历史科学创新，提取“算法思维链”，将随机搜索转化为定向的结构进化。
两大压缩技术突破：
- Q-Enhance 解决了密集模型长上下文精度衰减问题。
- MoE-Salient-AQ 在亚 3-bit 量化下，性能优于 SOTA 人工 MoE 设计 3.7%。
极限部署验证：成功在双 A100 受限服务器上部署 2350 亿参数模型，内存节省 75%，精度损失仅 0.64%。
新范式确立：确立了在严格物理边界内，通过知识驱动实现可扩展的软硬件协同设计的机器驱动发现新范式。

意义与影响

这项研究标志着 AI 驱动的科学发现从“盲目试错”向“知识引导的自主进化”迈出了关键一步。其意义主要体现在以下三个方面：

打破软硬件协同设计的壁垒：传统上，硬件架构师与算法工程师往往各自为战。该框架通过物理约束下的多智能体协作，实现了软硬件设计的深度融合与自动化，大幅降低了大规模模型部署的门槛。
提升极端资源下的模型可用性：通过 MoE-Salient-AQ 和 Q-Enhance 等技术，使得在资源受限（如低比特量化、有限显存）环境下运行超大模型成为可能，这对于降低 AI 基础设施成本、推动绿色计算具有重要意义。
拓展 AI for Science 的应用边界：证明了 AI 智能体不仅可以生成代码或文本，还能在严格的物理定律和硬件限制下进行工程创新。这为未来自动化设计芯片、优化数据中心架构等更复杂的物理世界问题提供了可复制的方法论。

总之，该工作不仅解决了基础模型部署中的具体工程难题，更在方法论层面展示了如何让 AI 智能体在物理世界中“脚踏实地”地进行创造性工作。

查看原文 →arxiv.org