技术博客arXiv cs.CL·23 小时前

CLIP测试时适应奖励门控选择性去偏见

原标题：Selective Test-Time Debiasing for CLIP via Reward Gating

速览

RG-TTA是一种基于强化学习的测试时适应框架，在测试时根据输入的偏见敏感度自适应触发公平性正则化。对于偏见不敏感查询，专注优化跨模态对齐；对于敏感查询，则进行有针对性的去偏见修正。实验在FairFace和UTKFace公平性基准上验证，该方法显著降低偏见分布偏差，同时提升零样本任务性能，彻底解决传统统一去偏见的公平-效用权衡难题，为构建更公平的开源CLIP模型提供新范式。

AI 深度解读

背景

计算机视觉与语言模型（VLMs）在零样本任务中展现出强大的性能，但在涉及人物的查询中往往会强化社会刻板印象，导致人口统计学分布出现严重偏差。现有去偏化方法对所有输入查询一视同仁地执行统一的偏差修正，无论查询的敏感性如何，这在公平性与实用性之间形成了根本性的权衡。

核心内容

现有去偏化方法对所有输入查询一视同仁地执行统一的偏差修正，无论查询的敏感性如何，这在公平性与实用性之间形成了根本性的权衡。强去偏化会显著扭曲那些对偏差不敏感的查询中的语义有意义的信息，而弱去偏化则无法有效缓解偏差敏感查询中的刻板印象。无论是过于激进还是保守的统一处理方法，都无法同时兼顾对偏差不敏感查询的高实用性和对偏差敏感查询的高公平性。

为此，研究团队提出了一种名为 Reward-Gated Test-Time Adaptation（RG-TTA）的强化学习驱动的测试时自适应框架。该框架能够在测试时根据每个输入的偏差敏感性动态选择是否应用去偏化，并通过奖励门控机制实现自适应调控。

具体而言，RG-TTA 在测试时策略适应过程中会根据输入的偏差敏感性自适应触发公平性正则化，同时对偏差不敏感的输入专一性地优化跨模态对齐。实验在公平性基准（包括 FairFace 和 UTKFace）上验证了这一方法的有效性，结果显示：与现有方法相比，该框架实现了显著的偏差降低，同时在零样本实用性上也得到了提升，有效解决了统一去偏化方法带来的实用性-公平性权衡问题。

关键要点

VLMs 在零样本人物查询中易导致人口统计学分布偏斜，现有的去偏化方法对所有查询执行统一的偏差修正，忽视了查询的偏差敏感性差异。
统一强去偏化会扭曲偏差不敏感查询中的语义信息，弱去偏化则不足以缓解偏差敏感查询中的刻板印象，形成实用性-公平性的根本权衡。
RG-TTA 是基于强化学习的测试时自适应框架，通过奖励门控机制根据输入偏差敏感性动态触发公平性正则化，仅对偏差不敏感输入优化跨模态对齐。
在 FairFace 和 UTKFace 等公平性基准上，RG-TTA 实现了显著偏差降低，同时提升了零样本实用性，完美解决了现有统一去偏化方法的权衡问题。

意义与影响

该研究突破了传统去偏化方法的局限，首次实现了对不同类型查询的“智能分流”处理：对偏差敏感查询给予强有力的公平性干预，对偏差不敏感查询则保持语义完整性。这一创新不仅有效解决了公平性与实用性之间的经典权衡，还为大规模视觉-语言模型的部署提供了可直接应用的测试时方案。在实际场景中，能够显著降低刻板印象在人脸识别、图像检索等应用中的传播风险，同时保持模型在非敏感任务上的高性能，为构建更公平、更可靠的 AI 系统奠定了新的技术基础。

查看原文 →arxiv.org

CLIP测试时适应奖励门控选择性去偏见

速览

AI 深度解读

背景

核心内容

关键要点

意义与影响

相关推荐