技术博客arXiv cs.CL·23 小时前

LVLMs在指代交流中显式与隐式提示策略对比研究

原标题：Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication

速览

两项近期研究关于LVLMs能否协调高效指代表达的结论看似矛盾。本研究通过控制任务差异并直接对比提示风格，证实模型在显式提示下能达成高效指代。然而，在隐式提示下模型无法推断沟通效率需求，凸显了人机沟通机制的关键差异。

AI 深度解读

Implicit vs. Explicit Prompting Strategies for LVLMs in Referential Communication 深度解读

背景

大型视觉语言模型（LVLMs）在理解复杂指令和进行多模态交互方面取得了显著进展。然而，关于这些模型是否具备类似人类的“指称交流”（Referential Communication）能力，即能否在对话中通过协作达成高效、无歧义的表达，学术界存在争议。

近期两项独立研究得出了看似矛盾的结论：

Jones et al. (2026) 的研究暗示 LVLMs 可能难以自发协调出高效的指称表达。
Zeng et al. (2026) 的研究则表明，在特定条件下，模型能够有效地协调并生成高效的指称表达。

这种分歧引发了一个关键问题：模型能力的差异究竟源于任务设置的不同，还是提示策略（Prompting Strategies）的差异？为了厘清这一困惑，Peter Zeng 等人提交了一篇新论文，旨在通过控制变量法，直接对比这两种截然不同的提示风格对 LVLMs 指称交流能力的影响。

核心内容

本文的核心在于通过受控实验，直接对比“显式提示”（Explicit Prompting）与“隐式提示”（Implicit Prompting）对 LVLMs 指称交流效率的影响，从而解释先前研究中出现的矛盾结果。

1. 研究动机与假设

先前研究结果的矛盾可能并非源于模型本身能力的缺失，而是源于实验任务设置或提示方式的细微差别。研究者假设，如果排除任务差异，仅改变提示的显式程度，就能观察到模型行为的显著变化。

2. 实验设计

研究者复现并对比了 Jones et al. 和 Zeng et al. 的实验设置，但严格控制了任务内容的一致性，仅改变提示策略：

显式提示（Explicit Prompting）： 直接告诉模型需要与伙伴协调以达成高效、无歧义的指称表达。例如，明确指示模型：“请与你的人类伙伴协作，生成尽可能简洁且唯一的指称表达。”
隐式提示（Implicit Prompting）： 不提供关于“效率”或“协调”的直接指令，仅让模型参与标准的指称交流任务，期望模型能像人类一样自发推断出需要追求沟通效率。

3. 主要发现

显式提示下的成功： 当使用显式提示时，LVLMs 能够成功协调出高效的指称表达。这证实了 Zeng et al. 的发现，并表明之前的矛盾结果并非由任务差异导致，而是由提示方式决定。
隐式提示下的失败： 当使用更隐式的提示时，相同的模型无法推断出对“沟通效率”的需求。它们往往生成冗长、冗余或不够精确的表达，未能像人类那样自发优化交流效率。

4. 人类与 AI 的本质差异

这一发现揭示了人类与 AI 系统在沟通机制上的根本区别：

人类： 具有强大的语用推理能力（Pragmatic Reasoning），即使在没有明确指令的情况下，也能根据上下文推断出对方期望高效、清晰的交流，并主动调整自己的表达。
LVLMs： 缺乏这种自发的语用推断能力。它们的行为高度依赖于显式的指令。如果没有明确被告知要追求效率，它们不会主动优化表达，而是倾向于遵循字面指令或生成保守、冗余的输出。

关键要点

矛盾源于提示策略： 先前研究中关于 LVLMs 指称交流能力的矛盾结论，主要归因于提示策略（显式 vs. 隐式）的不同，而非任务本身的差异。
显式指令的有效性： 当明确指示模型需要协调以实现高效指称时，LVLMs 能够表现出良好的协作能力，生成简洁且无歧义的表达。
隐式指令的局限性： 在缺乏明确指令的情况下，LVLMs 无法自发推断出对沟通效率的需求，导致表达冗余或低效。
人类与 AI 的语用差异： 人类具备自发的语用推理能力，能根据情境优化交流；而当前的 LVLMs 缺乏这种内在动机，其行为高度依赖外部显式引导。
对提示工程的意义： 在涉及多模态协作或复杂指称任务时，显式地引导模型关注“效率”和“唯一性”等目标，是提升其表现的关键。

意义与影响

1. 对提示工程（Prompt Engineering）的指导

该研究强调了提示策略在塑造 LVLMs 行为中的决定性作用。对于需要模型进行协作、推理或优化的任务，开发者不应假设模型能“心领神会”隐含的目标，而应提供清晰、显式的指令，明确指定期望的输出特性（如简洁性、唯一性、效率）。

2. 对 LVLMs 能力评估的启示

在评估 LVLMs 的沟通或协作能力时，必须考虑提示方式的影响。仅凭隐式提示下的表现可能低估模型的能力，而仅凭显式提示下的表现可能高估其自发推理能力。未来的基准测试应包含不同显式程度的提示，以更全面地评估模型能力。

3. 对多智能体系统（Multi-Agent Systems）设计的启示

在构建多智能体协作系统时，如果希望智能体之间能像人类一样高效沟通，可能需要引入显式的协议或指令层，以弥补其自发语用推理能力的不足。或者，需要开发新的训练方法，使模型能够内化这种隐式的沟通效率目标。

4. 对 AI 对齐（AI Alignment）的挑战

该研究凸显了当前 LVLMs 在“意图理解”和“社会智能”方面的局限。模型虽然能执行显式指令，但缺乏对人类交流中隐含社会规范（如合作原则、效率原则）的内在理解。这为未来 AI 对齐研究提出了新方向：如何让模型不仅服从指令，更能理解指令背后的社会语用含义。

查看原文 →arxiv.org