← 返回信息流
技术博客arXiv cs.AI·3 小时前

Thinking Before Retrieving: Robust Zero-Shot Composed Image Retrieval via Strategic Planning and Self-Criticism

AI 深度解读

背景

组合图像检索(Composed Image Retrieval, CIR)是一项需要结合视觉与语言理解的多模态任务,其核心目标是根据一张参考图像和一段文本修改指令,从海量图库中精准定位目标图像。例如,给定一张“红色连衣裙”的参考图片,并附上文本指令“将颜色改为蓝色”,系统需要检索出蓝色连衣裙的图片。

在零样本(Zero-shot)且免训练(Training-free)的场景下,模型无法依赖特定任务的数据进行微调,只能在推理阶段,于一个冻结的视觉-语言嵌入空间中,动态构建一个面向检索的文本查询。然而,现有的主流方法大多采用“单遍生成策略”,即直接将参考图像的上下文与文本修改指令融合,统一生成一段目标描述。这种“一步到位”的方式存在明显短板:在生成过程中极易出现语义扭曲或属性遗漏,且由于缺乏校验机制,参考图像原有属性的保留与文本修改需求之间往往相互干扰,导致生成的查询质量不佳,最终严重拖累检索精度。

核心内容

为了解决上述痛点,本文提出了 PEC-CIR 框架。该框架的核心思想是将原本“单遍生成”的查询构建过程,重构为一个多阶段的推理流水线,强调“先思考,再检索”,并引入自我批评机制。

PEC-CIR 采用了经典的 Planner-Executor-Critic(规划器-执行器-批评器)架构,将查询构建拆解为三个紧密协作的阶段:

  1. Planner(规划器):作为推理的起点,规划器负责从参考图像和文本修改指令中提取出显式约束。这一步相当于为后续的生成划定了明确的边界,明确哪些属性需要保留,哪些属性需要修改,避免了盲目生成。
  2. Executor(执行器):基于规划器提取的约束,执行器负责生成多个候选目标描述。这种多候选机制为系统提供了多样性和容错空间,不再将命运押注在单次生成结果上。
  3. Critic(批评器):作为质量把关的最后一环,批评器会根据最初提取的显式约束,对执行器产出的多个候选描述进行评估和打分,筛选出最符合约束要求的描述作为最终的检索查询。

通过这种分阶段的推理过程,PEC-CIR 将传统的单遍输出转变为“规划-生成-评估”的闭环。在真正执行检索之前,系统已经对候选查询进行了显式的合规性检查和自我批评,从而有效阻断了生成错误向下游检索任务的传播,大幅提升了零样本组合图像检索的鲁棒性与稳定性。

关键要点

  • 任务场景:聚焦于零样本(Zero-shot)且免训练(Training-free)的组合图像检索
查看原文 →arxiv.org