CA——Generative-Auto-bidding(GAS)

参考链接：
- 原始论文：GAS: Generative Auto-bidding with Post-training Search, WWW 2025, Kuaishou

GAS 整体思路说明

自动竞价通过代表广告主自动出价，对促进在线广告至关重要
生成式模型及优点 ：生成式自动竞价利用如 Transformer 和 Diffuser 等模型，根据可调节条件生成出价，因其能够直接从数据中学习最优策略并灵活适应偏好 ，近年来成为一种新趋势
生成式模型的不足 ：
- 生成式模型面临低质量数据导致的条件（condition，生成式强化中也就是return to go，也称为剩余回报）与真实动作价值不匹配的问题，尤其是在长序列决策中
- 数据集中的多数偏好可能阻碍模型对少数广告主偏好的泛化能力。虽然可以通过收集高质量数据并针对不同偏好重新训练多个模型来解决，但高昂的成本使其难以实现，阻碍了自动竞价进入大型基础模型时代
论文提出了一种灵活且实用的，基于训练后搜索（post-training Search）的生成式自动竞价方案（Generative Auto-bidding scheme using post-training Search），称为GAS
- 可用于优化基础策略模型的输出并适应多种偏好
- 论文采用弱到强（weak-to-strong）的搜索对齐方法，训练针对不同偏好的小型 Critic 模型，并利用蒙特卡洛树搜索（MCTS）的启发式搜索优化模型输出
- 具体而言，一种基于 Transformer 的 Critic 模型结合策略指示的新型投票机制可提升搜索对齐性能
- 论文还针对高频偏好场景或计算效率敏感场景提供了一种微调方法
- 在真实数据集和快手广告平台的在线A/B测试中进行的广泛实验证明了GAS的有效性，例如目标消耗提升了1.554%

Background

自动出价问题引入 ：随着商业的快速数字化，在线广告平台的覆盖范围和重要性显著扩大，成为企业吸引目标受众和提升销售的重要工具。面对海量的展示机会，手动调整出价以在预算和KPI约束下优化成本是不现实的。为此，广告平台现在提供自动竞价服务，利用高级策略自动化出价过程。这些策略考虑了即时或历史竞价信息中的多种因素，例如展示机会的分布和剩余预算（Wang等，2020）。此外，根据广告主类型的不同，策略还需考虑其偏好差异。例如，品牌广告主以长期增长和品牌认知为目标，通常希望在平均每展示成本等约束下向尽可能多的人展示广告；而效果广告主以最大化获胜展示的价值为目标，希望在每次转化的成本约束下最大化转化量（Xiao等，2017）。为满足这些多样化需求，谷歌、Facebook和阿里巴巴等广告平台为客户提供了多种定制化的竞价策略（Zhang等，2019；Zhang等，2020；Xiang等，2020）。此外，面对动态变化的广告环境，策略需要定期优化以紧密贴合客户偏好，从而帮助其实现长期商业利益（Zhang等，2020）
智能出价中的强化学习方法 ： RL 长期以来是通过广告模拟器或离线广告日志训练代理以优化自动竞价策略的主要方法。然而，RL方法主要基于马尔可夫决策过程（MDP），假设未来状态仅由当前单步状态和动作决定
- 最近的统计分析（Zhang等，2020）对自动竞价中的这一假设提出了质疑，揭示了历史状态序列长度与后续状态之间的强相关性。这一发现表明，在不可预测的在线广告环境中，仅依赖最近状态可能导致策略不稳定
- 此外，RL策略的偏好不易控制。USCB（Xiao等，2017）提出基于历史数据计算多约束下的最优解，然后训练RL优化策略。然而，一旦部署，策略的偏好即固定，限制了交互性和可控性
因此，基于条件生成模型（如Transformer和Diffuser）的生成式自动竞价方法成为新趋势
- 这些方法通过表示偏好的向量条件直接输出动作甚至轨迹，无需MDP假设。例如，决策Transformer（Chen等，2021）可以利用丰富的历史信息进行决策；Diffuser（Ajay等，2023）可直接根据条件生成规划轨迹
- 更重要的是，生成式模型通过简单修改条件值即可灵活控制偏好
随着基于生成式模型的大型基础模型在自然语言处理和计算机视觉等领域的显著进展（如ChatGPT和Stable Diffusion），可以预见自动竞价领域也将迈向基础模型时代，即开发决策基础模型以直接从大规模数据中学习最优决策策略
生成式自动竞价方法在应用中存在两大挑战 ：
- 首先，生成式竞价方法的性能受数据集质量显著影响，其中收集的条件（即 return to go ）无法反映动作的真实价值。例如，一个好的动作 $a_t$ 后接一个糟糕的未来动作 $a_{t+1}$ 可能导致 $a_t$ 的 return to go 较低，反之亦然。因此，由于训练中条件与真实动作价值不匹配，学习到的策略难以达到最优
- 其次，实际竞价任务通常涉及随时间变化的偏好，但生成式方法总是倾向于模仿多数偏好（Navigli等，2023），需要重新训练以适应新的少数偏好。然而，随着自动竞价领域模型规模的扩大，基于Transformer等基础模型的竞价模型会变得越来越大，重新训练一组大型决策Transformer以适应不同偏好的成本高昂且不切实际，阻碍了自动竞价进入大型基础模型时代。因此，论文提出一个问题：“能否仅用一个策略模型高效实现多种偏好下的最优策略？”
论文方案 ：论文提出了一种基于 post-training Search 的生成式自动竞价方案GAS ，通过优化单一基础策略模型的输出并高效适应多种偏好
- 论文采用弱到强的搜索对齐思想，即通过小型模型优化大型基础模型的输出（Burns等，2024）。具体而言，论文训练一组小型 Critic 模型评估不同偏好的价值，然后利用蒙特卡洛树搜索（MCTS）启发的方法优化模型输出（Kocsis和Szepesvári，2006）。在此方案中，条件值与真实动作价值之间的不匹配（通过基于Q学习的 Critic 模型近似）将得到缓解。这是因为基于 Bellman Backup 的Q学习仅需当前奖励，不受未来轨迹影响。此外，通过多样化策略收集的大规模数据集有助于训练 Critic 模型，使其能够评估不同质量的动作，缓解域外高估问题（Kostrikov等，2022）。该方案还可在不重新训练或微调模型的情况下，通过 Critic 引导的动作优化实现与不同偏好的更好对齐
论文的贡献总结如下：
- 提出了一种灵活实用的框架，利用 post-training Search 方法优化生成式自动竞价模型并适应多种偏好，为自动竞价基础模型打开了大门
- 为提升搜索过程的准确性，论文利用基于Transformer的 Critic 模型，通过历史竞价序列感知底层策略，并引入新型投票机制以增强搜索过程中价值反向传播阶段的价值近似准确性
- 除了在测试时执行搜索外，论文还为高频偏好场景或计算效率敏感场景提供了一种微调方法
- 在真实世界的大规模数据集和快手广告平台的在线A/B测试中进行的广泛实验证明了所提生成式自动竞价方案的有效性

Preliminary

问题描述

在一个时间段内，假设有 $H$ 个展示机会依次到达并编号为 $i$。在竞价平台中，广告主提交出价以竞争每个展示机会。若广告主的出价 $b_i$ 高于其他广告主，则赢得该展示。获胜后，广告主需支付成本 $c_i$，通常在第二价格拍卖中为其他广告主的最高出价。在此期间，广告主的目标是最大化获胜展示的总价值 $\sum_{i}o_{i}v_{i}$，其中 $v_{i}$ 为展示 $i$ 的价值， $o_{i}$ 为广告主是否赢得展示 $i$ 的二元指标。此外，预算和多种KPI约束（He等，2021）对广告主控制广告投放效果至关重要。预算约束为 $\sum_{i}o_{i}c_{i}\leq B$，其中 $B$ 为预算。其他KPI约束更为复杂，可分为两类：成本相关（CR，cost-related）约束（如CPC和CPA）和非成本相关（NCR， non-cost-related）约束（如CTR和CPI）。为简化问题，论文考虑带成本相关约束的自动竞价，其统一形式为 $\frac{\sum_{i}c_{ij}o_{i} }{\sum_{i}p_{ij}o_{i} }\leq C_{j}$，其中 $C_{j}$ 为广告主提供的第 $j$ 个约束上限。给定 $J$ 个约束，多约束竞价（MCB）问题可表述为：
$$
\begin{aligned}
\max & \quad \sum_{i}o_{i}v_{i} \\
\text{s.t.} & \quad \sum_{i}o_{i}c_{i}\leq B \\
& \quad \frac{\sum_{i}c_{ij}o_{i} }{\sum_{i}p_{ij}o_{i} }\leq C_{j}, \quad \forall j \\
& \quad o_{i}\in\{0,1\}, \quad \forall i
\end{aligned} \tag{1}
$$
已有研究（USCB）表明其最优解为：
$$
b_{i}^{*}=\lambda_{0}v_{i}+\sum_{j=1}^{J}\lambda_{j}p_{ij}C_{j},
$$
- 其中 $\lambda_{j}$ 为最优竞价参数。然而，由于广告环境的不确定性和动态性，这些参数难以直接计算。不同类型的广告主可能通过不同约束组合表达偏好，例如，仅考虑预算约束的最大回报竞价广告主和同时考虑预算与CPA约束的目标CPA竞价广告主

自动竞价的决策过程

由于广告环境高度动态，最优竞价参数需定期调整以最大化整个时间段内的总价值。因此，自动竞价任务可建模为序列决策问题。论文考虑标准决策设置：自动竞价代理与广告环境 $E$ 在离散时间步中交互。在每个时间步 $t$，代理接收描述实时广告状态的状态 $s_{t}\in\mathcal{S}$，并输出动作 $a_{t}\in\mathcal{A}$ 以确定最终出价。广告环境具有未知状态转移动态 $\mathcal{T}$。在MDP假设下，转移动态可表示为 $\mathcal{T}:s_{t}\times a_{t}\to s_{t+1}$，即下一状态 $s_{t+1}\in\mathcal{S}$ 由当前状态 $s_{t}$ 和动作 $a_{t}$ 决定。此时，代理的策略为 $\pi(a_{t}|s_{t})$。若无MDP假设，下一状态可能由更多因素（如历史轨迹 $\tau$ ）决定。转移到下一状态后，环境会发出奖励 $r_{t}$，表示时间步 $t$ 内对目标的贡献价值。重复此过程直到竞价周期结束（例如一天），自动竞价代理的目标是最大化整个周期内的总价值
如公式1所述。具体建模如下：
- $s_{t}$ ：状态是描述广告活动状态的信息集合，包括剩余时间、剩余预算、预算消耗速度、当前KPI比率等
- $a_{t}$ ：对竞价参数 $\lambda_{j}$ 的调整，建模为 $(a_{t}^{\lambda_{0} },\ldots,a_{t}^{\lambda_{J} })$
- $r_{t}$ ：时间步 $t$ 内候选展示集合 $C$ 对目标的贡献价值

基于搜索的生成式自动竞价

本节首先介绍如何开发MCTS启发的 post-training Search 过程以优化基础策略模型的输出动作，然后介绍两种应用此搜索的实用范式

MCTS 启发的 post-training Search

由于决策 Transformer 广泛用于生成式决策，论文将其作为自动竞价的 backbone 模型，策略生成动作的公式为：
$$
a_{t}\sim\pi_{dt}=\text{DT}_{\theta}(a|s_{\leq t},a_{ < t},R_{\leq t}),
$$
- 其中条件 $R_{t}$ 为时间步 $t$ 的 return to go ：
  $$
  R_{t}=\sum_{i=t}^T\gamma^{i-t}r(s_{i},a_{i}),
  $$
- 其中 $\gamma$ 为折扣因子， $r(s_{i},a_{i})$ 为表示偏好的奖励函数（如仅考虑价值时，可表示为 $o_{i}v_{i}$ ）
搜索方案的目的是找到更优动作以更好对齐偏好（如更高价值）。将典型MCTS方法应用于决策过程需在每步包含四部分：
- 选择：从根状态节点 $s_{t}$ 出发，在探索预算 $i = 1\sim N$ 内随机选择连续有效子动作节点 $a^i_{t}$
- 扩展：除非子动作节点结束竞价过程，否则根据转移动态 $s^i_{t+1}\sim\mathcal{T}$ 创建子状态节点 $s^i_{t+1}$
- 模拟：从节点 $s^i_{t+1}$ 出发，根据策略 $\pi(a|s)$ 完成一次推演至结束
- 反向传播 ：利用推演结果更新节点 $a^i_{t}$ 的价值信息
完成四部分后，可根据探索与利用平衡原则选择最终动作 $a^i_{t}$。然而，与围棋不同，竞价是部分可观测MDP（POMDP）任务，其他广告主行为不可预测，因此无法模拟所有可能动作。为此，论文通过增强的基于Transformer的Q值函数近似扩展和模拟过程，无需实际模拟。以下分三部分介绍GAS实现（图1(a)）：选择、扩展与模拟、反向传播

选择

给定决策Transformer策略 $\text{DT}_{\theta}$，首先生成基础动作 $a^i_{t}$，然后通过乘以90%至110%的随机因子生成 $N-1$ 个随机动作 $\{a^i_{t}\}_{i=1:N-1}$ ：
$$
a^i_{t}=a_{t}*\varepsilon,\varepsilon\sim\mathcal{U}(90\%,110\%).
$$
保留初始基础动作 $a_{t}$，得到 $N$ 个动作提议（proposals） $\{a^i_{t}\}_{i=1:N}=\{a^i_{t}\}_{i=1:N-1}\oplus a_{t}$。选择过程即从这些动作提议中选择

扩展和模拟

由于无法在模拟器或真实环境中推演，需直接通过Q值函数估计动作提议 $a^i_{t}$ 在状态 $s_{t}$ 下的价值：
$$
Q_{\phi}(s_{t},a^i_{t};\pi)=r(s_{t},a^i_{t})+\mathbb{E}_{s_{t+1}\sim \mathcal{T},a_{t+1}\sim \pi}Q_{\phi}(s_{t+1},a_{t+1};\pi). \tag{6}
$$
- 问题：$s_{t+1} \sim P(s_{t+1}|s_t, \color{red}{a^i_{t}})$ 还是 $s_{t+1} \sim P(s_{t+1}|s_t, \color{red}{a^{t}})$ 呢？
论文采用IQL方法（Kostrikov等，2022）学习 $Q_{\phi}$，引入额外价值网络 $V_{\psi}(s)$ 以避免分布偏移导致的高估问题：
$$
\mathcal{L}_{\mathcal{V} }(\psi)=\mathbb{E}_{(s,a)\sim \mathcal{D} }[L^{x}_{2}(\mathcal{Q}_{\hat{\phi} }(s,a)-V_{\psi}(s))],
$$
- 其中 $L^{x}_{2}(u)=|\tau-1(u<0)|u^{2}$ 为期望回归损失。价值网络用于Q值学习：
  $$
  \mathcal{L}_{\mathcal{Q} }(\phi)=\mathbb{E}_{(s_{t},a_{t},s_{t+1})\sim \mathcal{D} }[(r(s_{t},a_{t})+\gamma V_{\psi}(s_{t+1})- \mathcal{Q}_{\phi}(s_{t},a_{t}))^{2}].
  $$
如公式6所示， $Q$ 与底层策略 $\pi$ 在后项期望中耦合。然而， $Q_{\phi}(s_{t},a_{t})$ 仅接收单状态-动作对而无策略指示，导致价值预测基于实际收集数据集的策略 $\pi_{\beta}$，与生成式自动竞价中由不同条件指示的策略 $\pi_\epsilon$ 产生策略差距
通过QT推演（Rollout via QT） ：为通过历史轨迹表示实际策略 $\pi_\epsilon$，论文利用Transformer的序列建模能力进行Q值学习，称为 $QT$：
$$
Q^{\pi_\epsilon }_{\phi}(s_{t},a^i_{t})=Q_{\phi}(s_{t},a^i_{t};\pi_\epsilon)=\textrm{QT}_{\phi}(s_{t},a^i_{t};s_{ < t},a_{ < t}).
$$
大规模预训练集（包含多样化策略收集的轨迹）有助于通过历史轨迹预测未来轨迹，即 rollout $\{s_{\leq t},a_{\leq t}\}\rightarrow\{s_{t+1:T},a_{t+1:T}\}$。训练后， $\textrm{QT}_{\phi}(s_{t},a^i_{t};s_{ < t},a_{ < t})$ 可返回竞价结束前推演价值的近似值

反向传播

由于Q值函数的高估问题，不准确的推演价值估计会导致反向传播为动作节点 $a^i_{t}$ 提供不准确的价值，从而执行不良动作。为缓解此问题，论文提出基于共识启发式的Q投票机制
通过Q投票的价值反向传播 ：鉴于离线RL的成功（Q值用于学习改进行为策略的策略），论文可直观认为不同随机训练的Q值网络能以高概率对真实最佳动作赋予更高价值达成一致。此外，由于高估是偶然错误，对特定动作赋予更高价值不会达成一致。形式上，若用不同随机种子独立训练 $M$ 个Q值网络 $\{Q^{\pi_\epsilon }_{\phi_{k} }\}_{k=1:M}$，且有 $N$ 个动作提议 $\{a^i_{t}\}_{i=1:N}$ 及真实最佳动作 $a^j_{t}$，论文通过概率密度函数 $p(a|Q)$ 建模共识启发式：
$$
\textbf{Consensus:}\ p(a^j_{t}|Q_{\phi_{k} }^{\pi_\epsilon})>p(a_{t}^{i\neq j}|Q_{\phi_k}^{\pi_\epsilon}),\forall k\in\{1,…,M\}.
$$
因此，若仅使用单一Q，选择 $a^j_{t}$ 的最终胜率为：
$$
\mathcal{R}^{k}:=\frac{p(a^j_{t}|Q_{\phi_{k} }^{\pi_\epsilon })}{\sum_{i\neq j}p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })}.
$$
基于此共识，可采用多数投票方法提高胜率 $\mathcal{R}^{k}$。为简洁起见，假设所有 $k\in\{1,…,M\}$ 的 $p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })$ 相同。通过多数投票选择动作 $a^i_{t}$ 为最终动作的概率为：
$$
p(a^i_{t}|\{Q_{\phi_{k} }^{\pi_\epsilon }\}_{k=1:M})=\sum_{l=\left\lfloor \frac{M}{2} \right\rfloor+1}^{M}\binom{M}{l}p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })^{l}(1-p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon }))^{M-l}.
$$
应用Condorcet’s Jury theorem（Boland，1989），可得：
$$
\mathcal{R}^{1:M}=\frac{p(a^i_{t}|\{Q_{\phi_k }^{ {\pi_\epsilon } }\}_{k=1:M})}{\sum_{i\neq j}p(a^i_{t}|\{Q_{\phi_k }^{ {\pi_\epsilon } }\}_{k=1:M})}>\mathcal{R}^{k}.
$$
- 为简化理解，我们假设 $p(a^1_{t}|Q_{\phi_{k} }^{\pi_\epsilon }) = 0.4$, $p(a^2_{t}|Q_{\phi_{k} }^{\pi_\epsilon }) = 0.3$，$p(a^3_{t}|Q_{\phi_{k} }^{\pi_\epsilon }) = 0.3$，则有对于 $\forall k$，有 $\mathcal{R}^{1:3} = 0.81 > \mathcal{R}^k = 0.67$
为避免无效多数投票结果（即无动作获得比其他动作更多的票数），论文提出基于Q值的软多数投票机制（Q投票），分两步实现：
- 第一步 ：对每个 $Q_{\phi_{k} }^{\pi_\epsilon }$，基于所有 $a^i_{t}$ 的min-max归一化投票为：
  $$
  v(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })=\frac{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})-\min_{n}\{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})\} }{\max_{n}\{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})\}-\min_{n}\{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})\} }\in[0,1].
  $$
- 第二步 ：动作 $a^i_{t}$ 的最终总票数为：
  $$
  v(a^i_{t}|\{Q_{\phi_{k} }^{\pi_\epsilon }\}_{k=1:M})=\sum_{k=1}^{M}v(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon }).
  $$
完成上述MCTS启发搜索后，可得到比 $a_{t}$ 具有更高偏好价值的优化动作 $a^n_{t}$

基于GAS的竞价

GAS有两种应用方式：i）在测试时搜索，ii）利用搜索微调基础策略模型。两种方法均需训练表示不同偏好的 Critic 模型
偏好表示 ：偏好通过奖励函数设置表达，例如：
- 仅考虑预算约束的最大回报竞价偏好： $r_{t}=o_{t}v_{t}$ ；
- 综合考虑价值和KPI约束的偏好： $r_{t}=o_{t}v_{t}\cdot\frac{1}{J}\sum_{j}\min\left\{\big(\frac{C_{j} }{c_{tj}o_{t}/p_{tj}o_{t} }\big)^{\beta},1\right\},\beta>1$ ；
  - 问题：是加法吧？
- 通过更大可控权重 $w$ 更偏好KPI约束的偏好： $r_{t}=o_{t}v_{t}+\frac{w}{J}\sum_{j}\min\left\{(\frac{C_{j} }{c_{tj}o_{t}/p_{tj}o_{t} })^{\beta},1\right\},\beta>1$
基于公式8，可利用这些奖励函数训练 Critic 模型

基于搜索的推理

在推理的每个时间步重复第3.1节的搜索过程，得到测试时版本的方法_GAS-infer_，可直接与基础策略模型和多个 Critic 模型部署。详细流程见算法1

基于搜索的微调

由于搜索方法能够围绕基础动作找到更优动作（尤其是基础动作质量差或与偏好不对齐时），可利用搜索增强训练数据并微调基础策略模型。首先，对数据集中的每个数据点 $\{s_{t},a^{\beta}_{t}\}$ 进行搜索，得到更优动作 $a^{\rho}_{t}$。然后，基于监督微调（sfft）损失训练DT ${}_{\theta}$ ：
$$
\mathcal{L}_{\text{DT} }^{\text{sft} }(\theta)=mse(a_{t},a^{\rho}_{t}).
$$
尽管存在更多偏好对齐方法（如DPO和RLHF），但它们通常基于轨迹级查询数据集且稳定性较差，因此留作未来工作

Experiments

Experiment Setup

数据集 ：与以往从非开源的广告自动出价系统中收集私有竞价日志的数据集准备方法不同，论文采用了阿里巴巴[43]发布的新公开大规模真实世界竞价数据集AIGB。据论文所知，这是目前最大的公开数据集，包含超过200万条轨迹，并提供了一个稀疏版本以应对更具挑战性的场景。更多细节见附录A
评估指标 ：为简化评估，论文采用以下三个指标衡量性能：
- 价值（Value） ：竞价期间获得的总价值，计算公式为$\sum_{i} o_{i} v_{i}$；
- KPI约束超限率（ER） ：引入二元指示函数$I(x^{h}_{j}, C_{j})$，判断在周期$h$内的最终KPI表现$x^{h}_{j} = \Sigma_{i} c_{ij} o_{i} / \Sigma_{i} p_{ij} o_{i}$是否超过给定约束$C_{j}$。假设共有$H$个周期，KPI约束超限率定义为：
  $$
  ER = \frac{1}{H} \sum\nolimits_{h=1}^{H} \sum\nolimits_{j=1}^{J} \mathbb{I}(x^{h}_{j}, C_{j}).
  $$
- 综合得分（Score） ：引入惩罚项
  $$
  penalty_{j} = \min\left\{\left(\frac{C_{j} }{\Sigma_{i} c_{ij} o_{i} / \Sigma_{i} p_{ij} o_{i} }\right)^{\beta}, 1\right\}, \beta=2,
  $$
- 综合得分是价值与KPI约束的平衡，计算公式为：
  $$
  score = \left(\sum_{i} o_{i} v_{i}\right) \times \min\{penalty_{j}\}_{j=1}^{J}.
  $$
基线方法 ：论文对比了多种基于 RL 和生成模型的方法：
- USCB[18]：一种在线RL方法，动态调整参数至最优出价；
- BCQ[14]：典型的离线RL方法，仅通过固定数据集更新策略；
- CQL[23]：通过正则化Q值学习保守价值函数的离线RL方法；
- IQL[22]：无需查询样本外动作即可实现多步动态规划更新的离线RL方法；
- DiffBid[17]：基于扩散模型的生成方法，根据条件生成竞价轨迹；
- DT[7]：基于Transformer的序列决策生成方法；
- CDT[26]：考虑多约束向量的DT改进方法；
- DT-score ：采用同时考虑获胜价值和KPI约束的奖励函数的DT方法
实现细节 ：基线方法的超参数参考原论文默认值，并进一步调优以优化性能。GAS包含两个组件：基础策略模型和多个QT网络。基础策略模型可任选，论文选择DT-score ，其超参数参考[43]提供的官方代码，微调时学习率设为$1e^{-5}$。QT网络采用6个注意力层，每层8个头，隐藏层大小为512，总计1400万参数，轻量高效。总训练步数为40万步，使用AdamW优化器[27]，学习率为$1e^{-4}$，批量大小为128。训练基于PyTorch框架，在两块NVIDIA H100 GPU上完成。QT网络的详细超参数见表6（附录B）

与基线方法的性能对比

本实验在多种设置下对比各基线方法的性能，包括不同数据集（AIGB-2M及其稀疏版本AIGB-sparse）和MCB竞价中的不同预算约束（最大允许预算的50%、75%、100%、125%、150%）。结果以综合得分衡量，如表1所示
结果显示，GAS-infer和GAS-sft在所有预算设置下均优于其他方法，得分最高。其他生成方法如DT、CDT和DT-score表现也较好，体现了生成模型相较于传统RL方法（如IQL）的优势。DiffBid在此大规模任务中表现不佳，可能原因是预测长轨迹和学习逆动态模型引入了额外挑战。稳定性方面，如图2(d)所示，GAS优于基础策略模型。GAS-sft性能略低于GAS-infer，可能因其将 Critic 与原始模型融合，导致评论能力模糊化。需注意的是，Q-voting过程可并行执行，每步耗时约0.1秒，远小于30分钟的竞价间隔，表明GAS-infer在大规模自动竞价任务中极具效率

偏好对齐性能

为验证搜索方法能否通过不同偏好的 Critic 提升基础策略模型的对齐性能，论文在表2中进行了偏好对齐实验。评估了三种偏好范式（Score-first、Value-first、ER-first）下GAS-infer和GAS-sft与基础模型DT-score的对齐效果。结果显示，两种搜索方法在所有偏好下均优于基础模型，证明了搜索在偏好对齐中的有效性

消融实验

搜索范围 ：搜索范围直接影响探索（尝试新动作）与利用（聚焦已知优质动作）的平衡。较小的范围可能遗漏优质动作，但能更精确评估；较大的范围增加发现最优动作的概率，但评估准确性可能下降。极端情况下可搜索整个动作空间，但效率低下。基于计算效率考虑，论文在±10%范围内随机搜索5个动作，结果如图2(c)所示。实验表明，10%的搜索范围性能最佳，扩大范围收益递减，而最小-最大方法因动作预算有限效果最差。值得注意的是，10%的小范围即可实现最优性能，表明基于基础策略模型的微调已足够高效
Critic 数量 ：如Q-voting机制所述，更多 Critic 可提升价值评估的准确性。论文固定搜索范围为±10%，随机选择5个动作进行价值评估，结果如图2(b)所示。 Critic 数量从1增至7时性能显著提升，超过7后改善不明显，表明当前任务中7个 Critic 已足够
搜索预算 ：增加动作采样数量可能提升找到最优动作的概率。本实验未使用原始基础动作，结果如图2(a)所示。动作数量从1增至5时性能显著提升，超过5后趋于稳定，表明5个动作已能覆盖近优解
QT的有效性 ：由于跳过了实际模拟过程，Q值函数对预期收益的预测准确性至关重要。若缺乏历史轨迹信息，仅凭状态$s_t$和动作$a_t$预测模拟过程具有高度随机性。表3结果显示，结合历史轨迹的QT性能远超基于普通状态-动作对的Q值函数
论文还对比了无Q值函数的其他方法（贪婪搜索、随机/均值选择）以验证MCTS搜索的有效性。贪婪搜索选择即时奖励最高的动作，随机方法随机选择动作，均值方法取5个随机动作的平均值。如表3所示，论文的方法显著优于其他方法

线上实验

为验证GAS的实际效果，论文将其部署在快手广告系统中（见图1(b)），场景为多约束竞价（MCB）。由于线上测试资源有限且可能影响广告主收益，仅对比了GAS-infer与当前生产环境的基线模型DT。实验设置如下：
- 状态：预算、成本、基于时间的预算分配、成本速度、预测转化率、实时CPA/ROI状态等；
- 动作：调整上一时刻的竞价系数$\lambda_t = \lambda_{t-1} + a_t$（见公式2）；
- 训练后搜索 ： Critic 以获胜印象的总价值训练，搜索在Value-first偏好下进行，动作范围仍为基动作的±10%，采样5个点
线上A/B测试持续5天，每个MCB活动分配25%预算和流量给基线模型和GAS。结果如表4所示，GAS在展示量（+0.934%）、成本（+0.953%）、目标成本（+1.554%）和整体ROI（+0.595%）上均显著提升