Falcon Perception
速览
Falcon Perception是一个利用Falcon大语言模型构建的视觉感知系统。它旨在将强大的语言理解能力与视觉识别技术相结合。这一技术为多模态AI应用提供了新的解决方案。
AI 深度解读
Falcon Perception:早期融合 Transformer 在开放词汇感知中的实践与解读
背景
当前的开放词汇(Open-Vocabulary)感知系统大多采用模块化流水线架构:通常由一个(往往被冻结的)视觉主干网络提取特征,随后通过独立的融合/解码阶段将其与语言信息结合,并辅以额外的组件来处理匹配和后期处理任务。这种设计虽然在许多场景下表现良好,但也带来了显著的权衡与局限:
- 扩展性差:难以进行清晰的规模化扩展。
- 归因困难:很难将性能提升准确归因于特定的组件改进。
- 复杂性累积:随着针对各种失败模式添加新的修复模块,系统复杂度容易失控。
面对这一现状,Hugging Face 团队提出了一个更简洁的问题:如果我们选择合适的注意力模式、输出接口和训练信号,是否可以使用单一的早期融合(Early-Fusion)Transformer 主干网络同时处理感知和语言建模任务?
实验结果表明,答案在很大程度上是肯定的。基于此,Hugging Face 发布了 Falcon Perception 和 Falcon OCR 两个模型,并引入了诊断基准测试 PBench 以深入评估模型能力。
核心内容
1. 模型架构:早期融合、混合注意力与高效密集接口
Falcon Perception 是一个参数量为 0.6B 的早期融合 Transformer,旨在通过自然语言提示实现开放词汇的定位(Grounding)和分割(Segmentation)。其核心设计理念是“一个主干,两种行为”。
- 统一序列处理:模型在一个统一的序列中处理图像块(Image Patches)、文本和任务令牌(Task Tokens),使用混合注意力掩码(Hybrid Attention Mask)。
- 混合注意力机制:
- 图像令牌:双向注意力,允许所有图像令牌相互关注,从而构建全局视觉上下文(类似于视觉编码器的行为)。
- 文本与任务令牌:因果注意力,仅关注其之前的所有令牌(包括完整的视觉前缀和前面的文本)。
- 这种设计使得同一个主干网络既能像双向视觉编码器那样处理图像,又能支持基于自回归的任务令牌预测。
- 输出接口:采用小型结构化令牌接口和轻量级输出头,生成可变数量的实例。预测顺序固定为:
<coord>(坐标)→<size>(大小)→<seg>(分割掩码)。
2. Chain-of-Perception:从粗到细的监督机制
由于密集感知任务中实例数量不固定(从 0 到数百个),完全自回归地生成高分辨率掩码成本极高。Falcon Perception 采用 Chain-of-Perception 策略,将每个实例分解为三个步骤:
- 坐标令牌(Coordinate):首先预测实例的中心,解决“它在谈论哪个对象”的问题。
- 大小令牌(Size):接着预测空间范围,解决“它有多大”的问题。
- 分割令牌(Segmentation):最后生成一个嵌入向量,通过与上采样图像特征的点积,生成全分辨率的二进制掩码。
这种顺序是刻意设计的:先确定几何形状可以减少歧义,并使掩码预测步骤更接近于基于已解析对象的像素级细化。
3. 专用头部与最小开销
尽管主干网络是共享的,但解码过程使用了针对输出类型定制的轻量级头部:
- 坐标与大小头部:使用傅里叶特征编码(Fourier Feature Encoding)。通过将连续坐标映射到高维正弦空间,克服了神经网络的频谱偏差,从而比离散分箱获得更精确的定位。解码后的坐标会被重新注入序列中,作为后续令牌的 conditioning 条件。
- 分割头部:计算
<seg>令牌的隐藏状态与内容感知的上采样图像特征之间的点积。由于<seg>令牌在几何确定后生成,且能访问早期融合的视觉上下文,因此无需像基于解码器的实例分割训练那样使用单独的掩码查询机制和匈牙利匹配算法。
4. PBench:旨在隔离缺失能力的基准测试
现有的指代表达基准测试(如 RefCOCO)已趋于饱和(模型得分常超过 90%),且无法区分失败原因。为此,Hugging Face 引入了 PBench,一个按能力维度分解性能的诊断基准:
- 能力分类:将样本按所需的主导能力分类,包括属性识别、OCR 引导的消歧、空间约束和关系理解。
- 场景复杂性:特别针对密集、长上下文拥挤场景进行评估。
- 隔离变量:例如,OCR 提示避免使用空间限定词,而空间提示避免使用图像内的文本消歧符。这提供了能力画像而非单一的模糊分数,有助于决定下一步的投资方向(数据、训练课程或后训练)。
5. 训练策略:蒸馏、大规模数据与三阶段配方
多教师蒸馏初始化 为了避免从零开始训练导致的不稳定性,Falcon Perception 通过多教师蒸馏进行初始化:
- DINOv3 (ViT-H):提供强大的局部特征,对分割至关重要。
- SigLIP2:提供与语言对齐的特征,用于开放词汇理解。
- 蒸馏后的初始化在 ImageNet-1k 上实现了 74.25% 的零样本准确率,在 Pascal VOC 上实现了 85.11% 的线性探测 mIoU,为感知特定训练提供了强大的视觉基础。
大规模数据构建 训练集包含 5400 万张图像、1.95 亿个正表达和 4.88 亿个硬负样本。构建流程包括:
- 通过 DINOv3 嵌入对网络抓取图像进行层次聚类,确保概念覆盖均匀。
- 利用 VLM 驱动生成每个图像的密集对象描述,并按 PBench 复杂度级别分类(60% 基础,40% 高级)。
- 生成语义、视觉和细粒度的硬负样本以对抗幻觉。
- 集成共识:SAM 3、Qwen3-VL-30B 和 Moondream3 必须达成一致(IoU > 0.8)才能自动接受。
- 人工验证:分歧样本由标注员审核,恢复被自动系统混淆的困难样本。
- 严格比例:保持正负样本 1:1 的比例,将“存在校准”(Presence Calibration)作为首要目标,确保模型能可靠地判断“不存在”。
三阶段训练(总计 700 GT)
- 阶段 1 - 上下文列表(450 GT):模型学习自回归地列出场景清单(预测文本表达及其位置)。查询之间的完全因果注意力有助于学习对象共现关系(如“叉子,然后刀,然后盘子”),建立广泛的场景理解。
- 阶段 2 - 任务对齐(225 GT):修改注意力掩码,使查询无法互相看到,模拟独立查询。
- 阶段 3 - 微调与校准:(原文截断,但根据上下文推断为针对特定感知任务的对齐与校准)。
6. Falcon OCR:高性能开源 OCR 模型
与此同时,Hugging Face 还发布了 Falcon OCR,一个参数量为 0.3B 的模型。
- 性能:在 olmOCR 基准上得分 80.3,在 OmniDocBench 上得分 88.6。
- 速度:拥有任何开源 OCR 模型中最高的吞吐量。
关键要点
- 架构创新:Falcon Perception 摒弃了传统的“视觉主干+语言解码”流水线,采用单一的早期融合 Transformer,通过混合注意力机制同时处理视觉和语言信息。
- 结构化输出:引入
Chain-of-Perception接口(坐标→大小→分割),将复杂的密集感知任务分解为有序的自回归步骤,既保持了灵活性又降低了计算成本。 - 精度提升:在 SA-Co 数据集上,Falcon Perception 达到了 68.0 的 Macro-F1 分数,超过了 SAM 3 的 62.3 分。主要差距在于存在校准(
