← 返回信息流
技术博客arXiv cs.CL·2 天前

文本编辑难以直接迁移至视觉生成,UniKE基准揭示跨模态知识编辑鸿沟

原标题:Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

速览

统一多模态模型(UMMs)在部署中面临知识更新挑战,但文本侧有效的知识编辑能否迁移至图像生成尚不明确。研究推出UniKE基准,发现文本编辑成功率虽高,但直接生成图像的准确率仅18.5%,存在显著模态鸿沟。为此提出推理增强参数编辑方法,通过显式激活编辑知识,将VQA准确率提升最高达18.6个百分点。

AI 深度解读

文本编辑能否泛化到视觉生成?统一多模态模型中的跨模态知识编辑基准测试

背景

统一多模态模型(Unified Multimodal Models, UMMs)正在成为通用多模态智能的一种极具前景的范式。这类模型旨在通过单一架构同时处理文本和图像等多种模态的数据。随着 UMMs 在现实世界应用中的部署,如何有效地更新其内部存储的知识变得至关重要。

在传统的纯文本模型领域,知识编辑(Knowledge Editing)技术已经相对成熟,允许研究人员在不重新训练整个模型的情况下,修正或更新模型内部的特定事实性知识。然而,对于 UMMs 而言,一个核心问题尚未得到解答:那些能够成功修改文本输出的编辑操作,是否也能有效地转移到图像生成任务中?换句话说,如果我们告诉模型“埃菲尔铁塔位于伦敦”,模型在生成相关文本时可能会纠正这一错误,但它生成的图像中是否也会正确地显示埃菲尔铁塔在巴黎?

核心内容

为了解决上述问题,研究团队引入了 UniKE,这是首个针对 UMMs 跨模态知识编辑的基准测试。该基准包含 2,971 个编辑主体,涵盖了属性编辑(Attribute Edits)和关系编辑(Relation Edits)两大类。

1. 显著的模态鸿沟(Modality Gap)

研究团队通过基于视觉问答(VQA)的视觉验证方法,揭示了一个令人震惊的现象:文本侧的有效性与视觉侧的有效性之间存在巨大差距。

  • 文本侧表现优异:在直接生成文本的情况下,知识编辑的有效性可以达到约 92%
  • 视觉侧表现低迷:在直接生成图像并进行 VQA 评估时,最佳的整体准确率仅为 18.5%

这一数据表明,仅仅让模型在文本输出中“承认”知识已更新,并不足以保证其在视觉生成中也能正确执行。

2. 提出解决方案:推理增强参数编辑(Reasoning-augmented Parameter Editing)

针对上述鸿沟,研究团队提出了一种名为“推理增强参数编辑”的新方法。该方法的核心思想是在生成之前显式地激活已编辑的知识。实验结果显示,这种方法显著改善了所有被评估的“模型-编辑器”配对的整体 VQA 准确率,提升幅度高达 18.6 个百分点

3. 机制分析:为什么会出现鸿沟?

通过对模型内部机制的分析,研究发现这种模态鸿沟与编辑后的文本表示视觉生成的条件路径之间的部分对齐有关。

  • 足以改变文本输出的编辑强度或方向,对于引导图像合成来说可能仍然太弱或存在偏差。
  • 这意味着文本模态和视觉模态在知识存储和检索路径上存在解耦,简单的文本编辑无法自动映射到复杂的视觉生成过程中。

关键要点

  • 首个基准发布:UniKE 是第一个专门用于评估统一多模态模型(UMMs)跨模态知识编辑能力的基准,包含 2,971 个涵盖属性和关系的编辑样本。
  • 模态鸿沟显著:研究发现文本编辑的有效性(~92%)与视觉生成的准确性(~18.5%)之间存在巨大落差,证明文本知识的编辑不能保证可靠的跨模态迁移。
  • 新方法有效:提出的“推理增强参数编辑”通过显式激活编辑知识,将整体 VQA 准确率提升了最多 18.6 个百分点,证明了干预生成前知识激活的重要性。
  • 根本原因:鸿沟源于编辑后的文本表示与视觉生成条件路径之间的对齐不足,文本编辑的强度或方向不足以独立驱动准确的图像合成。
  • 资源开源:研究团队已公开代码和数据,以促进该领域的进一步研究。

意义与影响

这项研究对多模态人工智能的发展具有深远意义:

  1. 挑战现有假设:它打破了“文本知识更新即可自动优化多模态输出”的简单假设,指出了 UMMs 内部知识表示的复杂性和模态间的解耦特性。
  2. 推动模态感知编辑方法:研究结果强烈暗示,未来的知识编辑方法需要“感知模态”(modality-aware),即专门针对视觉生成路径进行优化,而不仅仅是针对文本输出。
  3. 提升多模态模型的可信度:随着 UMMs 在医疗、法律、创意产业等高风险或高精度领域的应用,确保模型在生成图像时也能准确反映最新知识(如纠正错误的地理信息、历史事实等)至关重要。UniKE 为评估和改进这一能力提供了标准工具。
  4. 促进机制可解释性:通过分析编辑表示与生成路径之间的对齐问题,研究为理解大模型内部知识如何被不同模态访问提供了新的视角,有助于开发更透明、更可控的多模态系统。
查看原文 →arxiv.org