技术博客arXiv cs.AI·1 小时前

NaviGen：基于用户行为历史实现个性化多模态内容生成

原标题：Navigating User Behavior toward Personalized Multimodal Generation

速览

针对AIGC生成内容与用户需求错位的问题，研究提出NaviGen方法。该方法将用户交互历史转化为可执行指令，通过双标识符耦合协作代码与文本代码。实验表明，NaviGen在商品、游戏和短视频领域提升了个性化生成质量及指令相关性。

AI 深度解读

导航用户行为以迈向个性化多模态生成：NaviGen 深度解读

背景

当前的 AIGC（人工智能生成内容）流水线在生成高保真度的图像和视频方面已经取得了显著进展。然而，这些系统通常预设了一个结构良好、细节丰富的创作指令（creation instruction）。在现实场景中，终端用户往往难以用语言精确描述他们想要的视觉细节，导致生成器输出的内容与用户的真实需求存在错位（misalignment）。

为了解决这一“指令鸿沟”，个性化内容生成（Personalized Content Generation）应运而生。其核心思路是将用户的交互历史转化为下游合成任务的可执行指令。尽管这一方向具有巨大的应用潜力，但在实际落地中面临两大主要障碍：

行为编码难题：用户的交互行为必须被编码为一种语言推理模型能够“读懂”的形式。
技能缺失问题：现有的预训练模型以及用户行为数据本身，通常缺乏“编写指令”（instruction-writing）这一关键技能。

核心内容

针对上述挑战，研究团队提出了 NaviGen 框架。该框架旨在通过解析用户行为历史，自动生成精准的多模态生成指令，从而实现高度个性化的图像和视频生成。

1. 双重标识符表示法（Dual Identifier Representation）

NaviGen 的核心创新在于其数据表示层。它为每一个用户交互项（item）引入了一个“双重标识符”（dual identifier）。这种表示法将两个关键信息耦合在一个 token 流中：

协同代码（Collaborative Code）：作为“行为基底”（behavioral substrate），捕捉用户与其他用户之间的协同过滤信号，反映物品的流行度和群体偏好。
文本代码（Textual Code）：作为“语义桥梁”（semantic bridge），连接物品的视觉/内容特征与语言模型的语义空间。

这种设计使得模型既能理解用户的行为模式，又能将其映射到语言模型可理解的语义空间中，解决了行为编码难题。

2. 两阶段 SFT + RL 训练管道

在获得上述表示后，NaviGen 采用了一个两阶段的训练流程，以弥补模型在指令编写能力上的缺失：

第一阶段：监督微调（SFT） 利用通过进化搜索（evolutionary search）获得的监督数据，对模型进行蒸馏。这一阶段的目标是让模型学习如何从用户行为中提炼出偏好推理逻辑，并掌握编写生成指令的技能。
第二阶段：强化学习（RL） 通过分层且自洽的奖励机制（hierarchical and self-consistent rewards），将生成过程与用户的真实意图进行对齐。这一阶段确保生成的指令不仅在语法上通顺，而且在视觉上是可生成的（visually generatable），并且能准确反映用户偏好。

3. 实验验证

研究在三个主要领域进行了广泛实验：电商产品、游戏和短视频。实验结果表明，NaviGen 在以下方面均取得了提升：

个性化生成质量：显著改善了个性化图像和视频生成的效果。
预测能力：增强了下一项物品推荐（next-item prediction）的准确性。
指令质量：生成的指令更加具体、相关，且具有更高的视觉可生成性。

关键要点

痛点解决：NaviGen 直接针对“用户不会描述需求”与“模型需要精确指令”之间的矛盾，通过自动化指令生成来弥合这一差距。
创新表示：提出“协同代码 + 文本代码”的双重标识符机制，巧妙地将推荐系统中的协同过滤信号与多模态大模型的语义理解能力结合。
训练策略：采用“SFT 蒸馏 + RL 对齐”的两阶段管道。特别值得注意的是，监督信号并非直接来自人工标注，而是通过“进化搜索”获得，这有助于发现更优的指令编写策略。
奖励机制：引入分层且自洽的奖励函数，确保生成的指令既符合用户长期偏好，又在单次生成任务中保持一致性和可执行性。
多领域适用性：该框架不仅适用于单一的图像生成，还扩展到了视频生成及推荐场景，证明了其通用性。

意义与影响

NaviGen 的提出标志着个性化 AIGC 从“被动响应”向“主动理解”迈出了重要一步。

降低创作门槛：通过自动将隐式的用户行为转化为显式的创作指令，NaviGen 极大地降低了普通用户进行高质量多模态内容创作的门槛。用户无需具备专业的提示词工程（Prompt Engineering）能力，系统即可根据其历史行为“读懂”其意图。
打通推荐与生成：该工作模糊了推荐系统（Recommender Systems）与生成式 AI（Generative AI）之间的界限。它证明了推荐系统中的行为数据可以直接转化为生成模型的输入，为构建“推荐-生成”一体化的智能体提供了新的技术路径。
提升生成可控性：传统的个性化生成往往依赖于少量的参考图片（如 LoRA 微调），而 NaviGen 利用动态的用户行为序列，能够生成更具体、更符合用户当前语境和长期偏好的内容，解决了传统方法中指令模糊、生成结果随机性大的问题。

随着 NaviGen 代码的匿名发布，这一框架有望为后续研究提供重要的基准，推动个性化多模态生成技术在电商、娱乐和内容创作领域的深入应用。

查看原文 →arxiv.org