技术博客arXiv cs.AI·3 小时前

Thinking Before Retrieving: Robust Zero-Shot Composed Image Retrieval via Strategic Planning and Self-Criticism

AI 深度解读

背景

组合图像检索（Composed Image Retrieval, CIR）是一项需要结合视觉与语言理解的多模态任务，其核心目标是根据一张参考图像和一段文本修改指令，从海量图库中精准定位目标图像。例如，给定一张“红色连衣裙”的参考图片，并附上文本指令“将颜色改为蓝色”，系统需要检索出蓝色连衣裙的图片。

在零样本（Zero-shot）且免训练（Training-free）的场景下，模型无法依赖特定任务的数据进行微调，只能在推理阶段，于一个冻结的视觉-语言嵌入空间中，动态构建一个面向检索的文本查询。然而，现有的主流方法大多采用“单遍生成策略”，即直接将参考图像的上下文与文本修改指令融合，统一生成一段目标描述。这种“一步到位”的方式存在明显短板：在生成过程中极易出现语义扭曲或属性遗漏，且由于缺乏校验机制，参考图像原有属性的保留与文本修改需求之间往往相互干扰，导致生成的查询质量不佳，最终严重拖累检索精度。

核心内容

为了解决上述痛点，本文提出了 PEC-CIR 框架。该框架的核心思想是将原本“单遍生成”的查询构建过程，重构为一个多阶段的推理流水线，强调“先思考，再检索”，并引入自我批评机制。

PEC-CIR 采用了经典的 Planner-Executor-Critic（规划器-执行器-批评器）架构，将查询构建拆解为三个紧密协作的阶段：

Planner（规划器）：作为推理的起点，规划器负责从参考图像和文本修改指令中提取出显式约束。这一步相当于为后续的生成划定了明确的边界，明确哪些属性需要保留，哪些属性需要修改，避免了盲目生成。
Executor（执行器）：基于规划器提取的约束，执行器负责生成多个候选目标描述。这种多候选机制为系统提供了多样性和容错空间，不再将命运押注在单次生成结果上。
Critic（批评器）：作为质量把关的最后一环，批评器会根据最初提取的显式约束，对执行器产出的多个候选描述进行评估和打分，筛选出最符合约束要求的描述作为最终的检索查询。

通过这种分阶段的推理过程，PEC-CIR 将传统的单遍输出转变为“规划-生成-评估”的闭环。在真正执行检索之前，系统已经对候选查询进行了显式的合规性检查和自我批评，从而有效阻断了生成错误向下游检索任务的传播，大幅提升了零样本组合图像检索的鲁棒性与稳定性。

关键要点

任务场景：聚焦于零样本（Zero-shot）且免训练（Training-free）的组合图像检索

查看原文 →arxiv.org

Thinking Before Retrieving: Robust Zero-Shot Composed Image Retrieval via Strategic Planning and Self-Criticism

AI 深度解读

背景

核心内容

关键要点

相关推荐