技术博客arXiv cs.AI·7 天前

基于生成响应建模的约束自动竞价

原标题：Constrained Auto-Bidding via Generative Response Modeling

速览

针对自动竞价中未来流量不确定性及现有方法局限，提出生成响应模型（GRM）。该模型联合预测未来流量及成本价值曲线，并结合轻量级解析控制器精确执行约束。实验表明，该方法在约束稳定性和整体评分上均优于现有基线。

在数字广告生态系统中，自动出价（Auto-bidding）系统扮演着至关重要的角色。其核心目标是在长期运营中，在满足预算约束（Budget Constraints）和比率目标（如单次获客成本 CPAs）的前提下，最大化广告主的价值。

然而，这一优化过程面临着巨大的现实挑战：未来的流量分布和拍卖动态具有非平稳性（Non-stationary）和不确定性。现有的解决方案主要存在两类局限性：

基于控制的节奏控制（Control-based Pacing）：这类方法通常是对当前的偏差做出反应，缺乏对未来的预见能力，无法提前应对市场条件的变化。
强化学习（RL）与生成式方法：这些方法通常将约束条件折叠进奖励信号（Reward Signals）中。这种做法不仅掩盖了约束违规的具体情况，而且在面对分布偏移（Distribution Shift）时，模型性能往往会显著下降。

为了突破这些瓶颈，研究人员提出了一种新的范式：将学习目标从直接预测“动作”转向预测“响应”。

本文提出了一种名为**生成式响应模型（Generative Response Model, GRM）**的新方法，旨在解决上述问题。GRM 是一种以历史数据为条件的序列模型，其核心创新在于联合预测未来的流量规模以及随时间聚合的成本/价值曲线。

传统的自动出价系统往往直接输出出价动作，而 GRM 改变了这一逻辑。它接受一个单一的**出价乘数（Bid Multiplier）**作为输入，并预测在该乘数下，未来一段时间内的：

这种“响应建模”使得系统能够在一个统一的框架下，量化不同出价策略对未来整体表现的影响，而不是孤立地看待每一次拍卖。

文章在温和的单调性假设下，从理论上证明了 GRM 的有效性。研究指出，相对于完全逐 tick（per-tick，即每一次拍卖）进行精细控制的理想情况，GRM 带来的最优性间隙（Optimality Gap）是有界的。

这个界限的大小取决于每 tick 的边际价值-成本比的离散程度（Dispersion）。换句话说，如果每次拍卖的边际效率波动不大，GRM 的预测结果将非常接近全局最优解。

基于 GRM 预测出的响应曲线，系统引入了一种轻量级的解析控制器来执行具体的约束管理。该控制器的核心机制是通过**一维求根步骤（1D root-finding step）**来强制满足每一个活跃约束（如预算上限或 CPA 目标）。

精确性：对于单一乘数问题，该控制器被证明是精确的。
鲁棒性：文章还分析了在重规划（Receding-horizon replanning）场景下的约束违规情况，证明了约束违规的程度与预测误差之间存在明确的界限关系。

这意味着，即使预测存在一定误差，控制器也能通过解析方法将违规控制在可接受的范围内。

在 AuctionNet 数据集上的实验结果显示，与现有的基线方法相比，GRM 显著提高了约束的稳定性和整体评分。这验证了将学习目标从“动作”转移到“响应”的有效性，以及在非平稳环境中通过预测未来聚合效应来优化长期价值的能力。

这项研究为广告技术（AdTech）中的自动出价问题提供了重要的理论和实践突破。

首先，它解决了传统强化学习和控制方法在处理长期约束时的痛点。通过将约束从奖励函数中解耦，并显式地建模未来的聚合响应，系统能够更清晰地感知约束违规，从而在分布偏移（如季节性变化、市场波动）下保持更稳定的性能。

其次，GRM 结合解析控制器的设计，兼顾了预测的灵活性和执行的确定性。这种“预测+解析求解”的混合架构，既利用了生成式模型捕捉复杂动态的能力，又保留了传统优化方法在约束满足上的精确性和可解释性。

最后，这项工作为未来的智能出价系统指明了方向：即不再仅仅关注单次拍卖的即时收益，而是通过生成式模型模拟长期响应，在不确定性中寻求全局最优的平衡点。这对于追求长期 ROI（投资回报率）的广告主而言，具有极高的实际应用价值。