技术博客arXiv cs.AI·3 小时前

WinDOM：利用自家族蒸馏实现小模型GUI定位

原标题：WinDOM: Self-Family Distillation for Small-Model GUI Grounding

速览

WinDOM提出了一种针对小模型GUI定位的自家族蒸馏（SFD）方法，旨在解决小模型部署中的数据获取与训练难题。该方法利用Playwright驱动Windows 11网页版直接提取DOM边界框，构建了5.4万条无需人工标注或OCR的语料库。实验显示，在Qwen3.5-2B模型上，结合早期初始化的强化学习策略，模型在多个基准测试中取得了显著提升，证明了小模型在GUI理解任务上的潜力。

AI 深度解读

WinDOM：面向小模型 GUI 定位的自家族蒸馏技术深度解读

背景

在人工智能迈向端侧部署和低成本迭代的进程中，小型 GUI（图形用户界面）定位智能体（GUI-grounding agents）因其轻量化特性而备受青睐。这类模型参数量通常在 2B（20亿）左右，非常适合在本地设备上运行，不仅有助于提升无障碍工具的性能，还能大幅降低开发和维护成本。

然而，将模型规模压缩至 2B 级别并非没有代价。当前该规模模型面临两个尚未完全解决的核心难题（Open Recipe Questions）：

数据获取成本高：如何在不依赖昂贵人工标注的情况下，获取高质量的边界框（bounding-box）训练数据？
训练策略复杂：如何有效地将监督微调（Supervised Fine-Tuning, SFT）与强化学习（Reinforcement Learning, RL）相结合，以突破小模型的性能瓶颈？

现有的解决方案往往侧重于通过增加模型规模来提升性能，但 WinDOM 的研究目标明确指向**“在保持小模型规模的前提下，最大化其性能表现”**。

核心内容

WinDOM 提出了一套完整的解决方案，涵盖数据构建、冷启动蒸馏以及强化学习初始化三个关键环节。

1. 无标注数据构建：WinDOM 语料库

为了摆脱对人工标注的依赖，研究团队构建了一个包含 54,425 条记录的地面真值（Grounding）语料库。其数据获取流程极具创新性：

自动化采集：利用 Playwright 在无头（headless）模式下驱动一个开源的 Windows 11 Web 重新实现版本。
直接提取：边界框信息直接从 DOM（文档对象模型）树中读取。
零人工干预：整个过程无需光学字符识别（OCR），也无需任何人工标注，从而实现了低成本、大规模的数据生成。

2. 自家族蒸馏（Self-Family Distillation, SFD）

SFD 是一种用于生成冷启动数据的蒸馏方法，其参数化过程仅依赖于“教师模型”的选择，具有极高的灵活性。SFD 提供两种模式：

EMA 模式（无外部模型）：使用学生模型自身的指数移动平均（Exponential Moving Average, EMA）作为教师。这意味着整个过程完全自给自足，不需要引入任何外部模型。
冻结大模型模式：使用同家族（same-family）中更大规模的冻结模型作为教师。

3. 强化学习初始化策略：饱和深度作为超参数

研究团队将 SFD 冷启动阶段的“饱和深度”（saturation depth）显式地定义为 GRPO（Group Relative Policy Optimization）强化学习的一个超参数。通过实验发现，未完全饱和的冷启动状态作为 GRPO 的初始化器，效果优于完全收敛的状态。

4. 实验结果：Qwen3.5-2B 的表现

在 Qwen3.5-2B 学生模型上的实验验证了上述策略的有效性：

最佳配置：使用 SFD-4B（基于 4B 规模模型的蒸馏）进行早期初始化强化学习（Early-init RL）。
性能提升：相比基础模型，在分布外（OOD）均值指标上提升了 +5.4 分。具体细分如下：
- ScreenSpot-Pro：+3.5
- OSWorld-G：+7.0
- ScreenSpot-V2：+5.8
自给自足模式的竞争力：使用同规模的 EMA 模式（无需外部教师模型）仅比跨规模的 4B 变体（66.3）低约 1 个 OOD 均值点（65.2 vs 66.3），证明了小模型自我蒸馏的巨大潜力。

关键要点

低成本数据生成：通过直接从 DOM 读取边界框，利用 Playwright 自动化驱动，实现了无需 OCR 和人工标注的大规模 GUI 定位数据构建。
自家族蒸馏（SFD）的灵活性：SFD 仅需选择教师模型，既可以使用同家族更大的冻结模型，也可以使用学生模型自身的 EMA，后者实现了完全去外部依赖。
冷启动饱和度的关键作用：SFD 冷启动过程的“未饱和”状态是强化学习（GRPO）更优的初始化起点，这颠覆了传统认为需要完全收敛再进入 RL 的思维定式。
小模型性能突破：在 Qwen3.5-2B 模型上，通过 WinDOM 方法，OOD 均值性能显著提升，且自蒸馏模式（EMA）的效果几乎追平使用更大外部教师模型的效果。
目标明确：该工作不追求模型规模的扩张，而是专注于通过数据工程和训练策略优化，挖掘小模型在 GUI 理解与定位任务中的极限性能。

意义与影响

WinDOM 的研究对端侧 AI 和 GUI 自动化领域具有深远意义：

降低部署门槛：证明了 2B 级别的小模型经过精心设计的训练流程，可以达到接近更大模型的性能水平。这使得在资源受限的设备（如手机、边缘计算设备）上部署高性能 GUI 智能体成为可能。
解决数据瓶颈：提出的 DOM 直接提取方法为 GUI 定位任务提供了一种可扩展、低成本的数据解决方案，缓解了高质量标注数据稀缺的问题。
优化训练范式：将冷启动饱和度作为 RL 超参数的发现，为小模型的 SFT 与 RL 结合提供了新的调优思路，强调了初始化状态对最终收敛性能的重要影响。
促进无障碍技术发展：高效、低成本的 GUI 定位技术可以直接应用于辅助功能工具（Accessibility Tooling），帮助视障人士等群体更好地使用数字界面，具有显著的社会价值。

总之，WinDOM 通过数据工程与训练策略的双重创新，为小模型在复杂 GUI 任务中的落地应用提供了一条切实可行的技术路径。

查看原文 →arxiv.org