技术博客arXiv cs.AI·3 小时前

稠密坐标列表微调在视觉语言模型中诱导可控干扰面

原标题：Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models

速览

该研究探讨了微调视觉语言模型以输出稠密坐标列表对模型序列化、重复及终止行为的影响，将其视为生成与控制表面。实验显示，在高容量适配器下，模型会产生重复尾部压力，但目标信号可分离，通过对象级重复停止可有效消除重复记录同时保持性能。这一稠密坐标列表适应过程创建了结构受限且跨家族的干扰面，可被测量和控制。

AI 深度解读

Dense Coordinate-List Fine-Tuning Induces a Controllable Interference Surface in Vision-Language Models

背景

视觉语言模型（Vision-Language Models, VLMs）在计算机视觉与自然语言处理的交叉领域取得了显著进展。然而，当这些模型被微调以生成**密集坐标列表（Dense Coordinate Lists）**时，虽然提升了视觉定位（Visual Grounding）的精度，但也引入了新的生成行为挑战。

传统的微调通常关注语义理解或简单的对象检测，但在需要输出结构化数据（如边界框坐标列表）的任务中，模型往往会出现序列化异常、重复输出或终止符失效等问题。这种现象并非简单的噪声，而是一种系统性的“干扰表面（Interference Surface）”。理解这一表面对于构建高可靠性、可控制的视觉定位系统至关重要。

核心内容

本文深入研究了微调视觉语言模型以输出密集坐标列表时产生的生成行为变化。作者将这种行为定义为“生成与控制表面”，并通过在 Gemma 4 12B 和 Qwen3-VL-8B 等模型上的实验，量化了容量、结构探针和控制信号对重复输出压力的影响。

1. 高容量微调引发的重复压力

在 Gemma 4 12B 模型上，研究人员使用了高容量的 q/k/v/o（查询、键、值、输出）LoRA（Low-Rank Adaptation）进行微调。结果显示：

性能提升显著：类别感知的 [email protected] 分数从 0.007 大幅提升至 0.448。
副作用明显：微调诱导了强烈的“尾部重复压力（repeated-tail pressure）”。具体表现为重复率（duplicate rate）达到 0.080，最大重复次数高达 23 次。

2. 容量持久性与结构隔离

为了探究重复现象是否与模型容量相关，研究团队进行了 q/v 秩（rank）扫描实验：

容量持续性：在秩（rank）从 4 到 64 的范围内，最大重复次数始终维持在 21-22 次。这表明重复压力具有容量持久性，并非仅由低秩适配引起。
结构特异性：通过结构轴探针（Structure-axis probes）分析发现，该效应主要局限于边界框坐标对象列表（bbox-coordinate object lists）。
非边界框结构的稳定性：密集的无边界框（non-bbox）结构以及空间/计数 JSON 格式在微调后依然保持“无重复（repeat-clean）”，即使在高容量适配器下也是如此。这证明干扰表面是结构绑定的（structure-bound）。

3. 目标信号的可分离性与控制

研究证实，目标信号是可分离的。通过引入“对象级重复停止（object-level repeat-stop）”机制：

消除重复：重复率降至 0.000，最大重复次数降至 1。
保持精度：F1 分数从 0.494 微降至 0.490，更严格的 [email protected] 分数反而从 0.381 提升至 0.385。
这表明可以通过后处理或控制信号有效消除重复，而不显著牺牲定位精度。

4. 跨模型验证

Qwen3-VL-8B：复现了干净的受控终点，[email protected] 为 0.318，重复率为 0.000，证明了控制方法在不同架构间的通用性。
COCO 2017 数据集：复现了数据获取过程及重复压力，进一步验证了该现象在标准基准测试中的普遍性。

关键要点

结构化输出的副作用：微调 VLMs 输出密集坐标列表会显著改变模型的序列化、重复和终止行为，形成可测量的“干扰表面”。
性能与稳定性的权衡：高容量 LoRA 微调能极大提升视觉定位精度（[email protected] 从 0.007 升至 0.448），但会引入严重的尾部重复问题（重复率 0.080，最大重复 23 次）。
重复压力的鲁棒性：重复现象与适配器秩（rank）无关，在 rank 4-64 范围内均保持稳定，表明这是模型处理此类结构化数据的固有特性，而非低秩近似误差。
结构特异性干扰：干扰仅存在于边界框坐标列表中。非边界框的密集结构（如空间/计数 JSON）不受影响，保持无重复状态。
可控性验证：通过对象级重复停止机制，可以在几乎不损失精度（F1 仅微降 0.004）的情况下，完全消除重复输出（重复率降至 0.000）。
跨家族通用性：该干扰表面在 Gemma 4 和 Qwen3-VL 等不同架构的模型中均被观察到，表明这是一个跨模型家族的普遍现象。

意义与影响

这项研究揭示了视觉语言模型在处理结构化坐标输出时的深层行为机制，具有重要的理论和实践意义：

重新定义结构化生成挑战：以往研究多关注语义准确性，本文指出结构化输出的“序列化稳定性”是同等重要的指标。重复输出不仅是噪声，更是模型内部表示与输出结构之间冲突的体现。
提供可测量的控制框架：通过量化“干扰表面”，研究人员提出了一套可测量、可控制的范式。这为开发高可靠性的视觉定位系统提供了方法论支持，即通过分离目标信号来消除结构副作用。
指导模型架构与微调策略：结果表明，干扰是结构绑定的而非容量绑定的。这提示未来的模型设计或微调策略应针对特定结构（如 bbox 列表）进行优化，而非盲目增加模型容量。
促进跨模型标准化：在 COCO 2017 和不同 VLM 家族中的复现，证明了该现象的普遍性。这有助于建立统一的评估标准，用于衡量 VLMs 在结构化输出任务中的鲁棒性。

总之，本文不仅诊断了视觉语言模型在密集坐标生成中的“重复病”，更提供了解决方案，强调了在追求高精度的同时，必须对生成过程的结构性干扰进行显式建模和控制。

查看原文 →arxiv.org