Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

CA——Generative-Auto-bidding(GAS)

  • 参考链接:
    • 原始论文:GAS: Generative Auto-bidding with Post-training Search, WWW 2025, Kuaishou

GAS 整体思路说明

  • 自动竞价通过代表广告主自动出价,对促进在线广告至关重要
  • 生成式模型及优点 :生成式自动竞价利用如 Transformer 和 Diffuser 等模型,根据可调节条件生成出价,因其能够直接从数据中学习最优策略并灵活适应偏好 ,近年来成为一种新趋势
  • 生成式模型的不足 :
    • 生成式模型面临低质量数据导致的条件(condition,生成式强化中也就是return to go,也称为剩余回报)与真实动作价值不匹配的问题,尤其是在长序列决策中
    • 数据集中的多数偏好可能阻碍模型对少数广告主偏好的泛化能力。虽然可以通过收集高质量数据并针对不同偏好重新训练多个模型来解决,但高昂的成本使其难以实现,阻碍了自动竞价进入大型基础模型时代
  • 论文提出了一种灵活且实用的,基于训练后搜索(post-training Search)的生成式自动竞价方案(Generative Auto-bidding scheme using post-training Search),称为GAS
    • 可用于优化基础策略模型的输出并适应多种偏好
    • 论文采用弱到强(weak-to-strong)的搜索对齐方法,训练针对不同偏好的小型 Critic 模型,并利用蒙特卡洛树搜索(MCTS)的启发式搜索优化模型输出
    • 具体而言,一种基于 Transformer 的 Critic 模型结合策略指示的新型投票机制可提升搜索对齐性能
    • 论文还针对高频偏好场景或计算效率敏感场景提供了一种微调方法
    • 在真实数据集和快手广告平台的在线A/B测试中进行的广泛实验证明了GAS的有效性,例如目标消耗提升了1.554%

Background

  • 自动出价问题引入 :随着商业的快速数字化,在线广告平台的覆盖范围和重要性显著扩大,成为企业吸引目标受众和提升销售的重要工具。面对海量的展示机会,手动调整出价以在预算和KPI约束下优化成本是不现实的。为此,广告平台现在提供自动竞价服务,利用高级策略自动化出价过程。这些策略考虑了即时或历史竞价信息中的多种因素,例如展示机会的分布和剩余预算(Wang等,2020)。此外,根据广告主类型的不同,策略还需考虑其偏好差异。例如,品牌广告主以长期增长和品牌认知为目标,通常希望在平均每展示成本等约束下向尽可能多的人展示广告;而效果广告主以最大化获胜展示的价值为目标,希望在每次转化的成本约束下最大化转化量(Xiao等,2017)。为满足这些多样化需求,谷歌、Facebook和阿里巴巴等广告平台为客户提供了多种定制化的竞价策略(Zhang等,2019;Zhang等,2020;Xiang等,2020)。此外,面对动态变化的广告环境,策略需要定期优化以紧密贴合客户偏好,从而帮助其实现长期商业利益(Zhang等,2020)
  • 智能出价中的强化学习方法 : RL 长期以来是通过广告模拟器或离线广告日志训练代理以优化自动竞价策略的主要方法。然而,RL方法主要基于马尔可夫决策过程(MDP),假设未来状态仅由当前单步状态和动作决定
    • 最近的统计分析(Zhang等,2020)对自动竞价中的这一假设提出了质疑,揭示了历史状态序列长度与后续状态之间的强相关性。这一发现表明,在不可预测的在线广告环境中,仅依赖最近状态可能导致策略不稳定
    • 此外,RL策略的偏好不易控制。USCB(Xiao等,2017)提出基于历史数据计算多约束下的最优解,然后训练RL优化策略。然而,一旦部署,策略的偏好即固定,限制了交互性和可控性
  • 因此,基于条件生成模型(如Transformer和Diffuser)的生成式自动竞价方法成为新趋势
    • 这些方法通过表示偏好的向量条件直接输出动作甚至轨迹 ,无需MDP假设。例如,决策Transformer(Chen等,2021)可以利用丰富的历史信息进行决策;Diffuser(Ajay等,2023)可直接根据条件生成规划轨迹
    • 更重要的是,生成式模型通过简单修改条件值即可灵活控制偏好
  • 随着基于生成式模型的大型基础模型在自然语言处理和计算机视觉等领域的显著进展(如ChatGPT和Stable Diffusion),可以预见自动竞价领域也将迈向基础模型时代,即开发决策基础模型以直接从大规模数据中学习最优决策策略
  • 生成式自动竞价方法在应用中存在两大挑战 :
    • 首先,生成式竞价方法的性能受数据集质量显著影响,其中收集的条件(即 return to go )无法反映动作的真实价值。例如,一个好的动作 \(a_t\) 后接一个糟糕的未来动作 \(a_{t+1}\) 可能导致 \(a_t\) 的 return to go 较低,反之亦然。因此,由于训练中条件与真实动作价值不匹配,学习到的策略难以达到最优
    • 其次,实际竞价任务通常涉及随时间变化的偏好,但生成式方法总是倾向于模仿多数偏好(Navigli等,2023),需要重新训练以适应新的少数偏好。然而,随着自动竞价领域模型规模的扩大,基于Transformer等基础模型的竞价模型会变得越来越大,重新训练一组大型决策Transformer以适应不同偏好的成本高昂且不切实际,阻碍了自动竞价进入大型基础模型时代。因此,论文提出一个问题:“能否仅用一个策略模型高效实现多种偏好下的最优策略?”
  • 论文方案 :论文提出了一种基于 post-training Search 的生成式自动竞价方案GAS ,通过优化单一基础策略模型的输出并高效适应多种偏好
    • 论文采用弱到强的搜索对齐思想,即通过小型模型优化大型基础模型的输出(Burns等,2024)。具体而言,论文训练一组小型 Critic 模型评估不同偏好的价值,然后利用蒙特卡洛树搜索(MCTS)启发的方法优化模型输出(Kocsis和Szepesvári,2006)。在此方案中,条件值与真实动作价值之间的不匹配(通过基于Q学习的 Critic 模型近似)将得到缓解。这是因为基于 Bellman Backup 的Q学习仅需当前奖励,不受未来轨迹影响。此外,通过多样化策略收集的大规模数据集有助于训练 Critic 模型,使其能够评估不同质量的动作,缓解域外高估问题(Kostrikov等,2022)。该方案还可在不重新训练或微调模型的情况下,通过 Critic 引导的动作优化实现与不同偏好的更好对齐
  • 论文的贡献总结如下:
    • 提出了一种灵活实用的框架,利用 post-training Search 方法优化生成式自动竞价模型并适应多种偏好,为自动竞价基础模型打开了大门
    • 为提升搜索过程的准确性,论文利用基于Transformer的 Critic 模型,通过历史竞价序列感知底层策略,并引入新型投票机制以增强搜索过程中价值反向传播阶段的价值近似准确性
    • 除了在测试时执行搜索外,论文还为高频偏好场景或计算效率敏感场景提供了一种微调方法
    • 在真实世界的大规模数据集和快手广告平台的在线A/B测试中进行的广泛实验证明了所提生成式自动竞价方案的有效性

Preliminary

问题描述

  • 在一个时间段内,假设有 \(H\) 个展示机会依次到达并编号为 \(i\)。在竞价平台中,广告主提交出价以竞争每个展示机会。若广告主的出价 \(b_i\) 高于其他广告主,则赢得该展示。获胜后,广告主需支付成本 \(c_i\),通常在第二价格拍卖中为其他广告主的最高出价。在此期间,广告主的目标是最大化获胜展示的总价值 \(\sum_{i}o_{i}v_{i}\),其中 \(v_{i}\) 为展示 \(i\) 的价值, \(o_{i}\) 为广告主是否赢得展示 \(i\) 的二元指标。此外,预算和多种KPI约束(He等,2021)对广告主控制广告投放效果至关重要。预算约束为 \(\sum_{i}o_{i}c_{i}\leq B\),其中 \(B\) 为预算。其他KPI约束更为复杂,可分为两类:成本相关(CR,cost-related)约束(如CPC和CPA)和非成本相关(NCR, non-cost-related)约束(如CTR和CPI)。为简化问题,论文考虑带成本相关约束的自动竞价,其统一形式为 \(\frac{\sum_{i}c_{ij}o_{i} }{\sum_{i}p_{ij}o_{i} }\leq C_{j}\),其中 \(C_{j}\) 为广告主提供的第 \(j\) 个约束上限。给定 \(J\) 个约束,多约束竞价(MCB)问题可表述为:
    $$
    \begin{aligned}
    \max & \quad \sum_{i}o_{i}v_{i} \\
    \text{s.t.} & \quad \sum_{i}o_{i}c_{i}\leq B \\
    & \quad \frac{\sum_{i}c_{ij}o_{i} }{\sum_{i}p_{ij}o_{i} }\leq C_{j}, \quad \forall j \\
    & \quad o_{i}\in\{0,1\}, \quad \forall i
    \end{aligned} \tag{1}
    $$
  • 已有研究(USCB)表明其最优解为:
    $$
    b_{i}^{*}=\lambda_{0}v_{i}+\sum_{j=1}^{J}\lambda_{j}p_{ij}C_{j},
    $$
    • 其中 \(\lambda_{j}\) 为最优竞价参数。然而,由于广告环境的不确定性和动态性,这些参数难以直接计算。不同类型的广告主可能通过不同约束组合表达偏好,例如,仅考虑预算约束的最大回报竞价广告主和同时考虑预算与CPA约束的目标CPA竞价广告主

自动竞价的决策过程

  • 由于广告环境高度动态,最优竞价参数需定期调整以最大化整个时间段内的总价值。因此,自动竞价任务可建模为序列决策问题。论文考虑标准决策设置:自动竞价代理与广告环境 \(E\) 在离散时间步中交互。在每个时间步 \(t\),代理接收描述实时广告状态的状态 \(s_{t}\in\mathcal{S}\),并输出动作 \(a_{t}\in\mathcal{A}\) 以确定最终出价。广告环境具有未知状态转移动态 \(\mathcal{T}\)。在MDP假设下,转移动态可表示为 \(\mathcal{T}:s_{t}\times a_{t}\to s_{t+1}\),即下一状态 \(s_{t+1}\in\mathcal{S}\) 由当前状态 \(s_{t}\) 和动作 \(a_{t}\) 决定。此时,代理的策略为 \(\pi(a_{t}|s_{t})\)。若无MDP假设,下一状态可能由更多因素(如历史轨迹 \(\tau\) )决定。转移到下一状态后,环境会发出奖励 \(r_{t}\),表示时间步 \(t\) 内对目标的贡献价值。重复此过程直到竞价周期结束(例如一天),自动竞价代理的目标是最大化整个周期内的总价值
  • 如公式1所述。具体建模如下:
    • \(s_{t}\) :状态是描述广告活动状态的信息集合,包括剩余时间、剩余预算、预算消耗速度、当前KPI比率等
    • \(a_{t}\) :对竞价参数 \(\lambda_{j}\) 的调整,建模为 \((a_{t}^{\lambda_{0} },\ldots,a_{t}^{\lambda_{J} })\)
    • \(r_{t}\) :时间步 \(t\) 内候选展示集合 \(C\) 对目标的贡献价值

基于搜索的生成式自动竞价

  • 本节首先介绍如何开发MCTS启发的 post-training Search 过程以优化基础策略模型的输出动作,然后介绍两种应用此搜索的实用范式

MCTS 启发的 post-training Search

  • 由于决策 Transformer 广泛用于生成式决策,论文将其作为自动竞价的 backbone 模型,策略生成动作的公式为:
    $$
    a_{t}\sim\pi_{dt}=\text{DT}_{\theta}(a|s_{\leq t},a_{ < t},R_{\leq t}),
    $$
    • 其中条件 \(R_{t}\) 为时间步 \(t\) 的 return to go :
      $$
      R_{t}=\sum_{i=t}^T\gamma^{i-t}r(s_{i},a_{i}),
      $$
    • 其中 \(\gamma\) 为折扣因子, \(r(s_{i},a_{i})\) 为表示偏好的奖励函数(如仅考虑价值时,可表示为 \(o_{i}v_{i}\) )
  • 搜索方案的目的是找到更优动作以更好对齐偏好(如更高价值)。将典型MCTS方法应用于决策过程需在每步包含四部分:
    • 选择 :从根状态节点 \(s_{t}\) 出发,在探索预算 \(i = 1\sim N\) 内随机选择连续有效子动作节点 \(a^i_{t}\)
    • 扩展 :除非子动作节点结束竞价过程,否则根据转移动态 \(s^i_{t+1}\sim\mathcal{T}\) 创建子状态节点 \(s^i_{t+1}\)
    • 模拟 :从节点 \(s^i_{t+1}\) 出发,根据策略 \(\pi(a|s)\) 完成一次推演至结束
    • 反向传播 :利用推演结果更新节点 \(a^i_{t}\) 的价值信息
  • 完成四部分后,可根据探索与利用平衡原则选择最终动作 \(a^i_{t}\)。然而,与围棋不同,竞价是部分可观测MDP(POMDP)任务,其他广告主行为不可预测,因此无法模拟所有可能动作。为此,论文通过增强的基于Transformer的Q值函数近似扩展和模拟过程,无需实际模拟。以下分三部分介绍GAS实现(图1(a)): 选择、扩展与模拟、反向传播
选择
  • 给定决策Transformer策略 \(\text{DT}_{\theta}\),首先生成基础动作 \(a^i_{t}\),然后通过乘以90%至110%的随机因子生成 \(N-1\) 个随机动作 \(\{a^i_{t}\}_{i=1:N-1}\) :
    $$
    a^i_{t}=a_{t}*\varepsilon,\varepsilon\sim\mathcal{U}(90\%,110\%).
    $$
  • 保留初始基础动作 \(a_{t}\),得到 \(N\) 个动作提议(proposals) \(\{a^i_{t}\}_{i=1:N}=\{a^i_{t}\}_{i=1:N-1}\oplus a_{t}\)。选择过程即从这些动作提议中选择
扩展和模拟
  • 由于无法在模拟器或真实环境中推演,需直接通过Q值函数估计动作提议 \(a^i_{t}\) 在状态 \(s_{t}\) 下的价值:
    $$
    Q_{\phi}(s_{t},a^i_{t};\pi)=r(s_{t},a^i_{t})+\mathbb{E}_{s_{t+1}\sim \mathcal{T},a_{t+1}\sim \pi}Q_{\phi}(s_{t+1},a_{t+1};\pi). \tag{6}
    $$
    • 问题:\(s_{t+1} \sim P(s_{t+1}|s_t, \color{red}{a^i_{t}})\) 还是 \(s_{t+1} \sim P(s_{t+1}|s_t, \color{red}{a^{t}})\) 呢?
  • 论文采用IQL方法(Kostrikov等,2022)学习 \(Q_{\phi}\),引入额外价值网络 \(V_{\psi}(s)\) 以避免分布偏移导致的高估问题:
    $$
    \mathcal{L}_{\mathcal{V} }(\psi)=\mathbb{E}_{(s,a)\sim \mathcal{D} }[L^{x}_{2}(\mathcal{Q}_{\hat{\phi} }(s,a)-V_{\psi}(s))],
    $$
    • 其中 \(L^{x}_{2}(u)=|\tau-1(u<0)|u^{2}\) 为期望回归损失。价值网络用于Q值学习:
      $$
      \mathcal{L}_{\mathcal{Q} }(\phi)=\mathbb{E}_{(s_{t},a_{t},s_{t+1})\sim \mathcal{D} }[(r(s_{t},a_{t})+\gamma V_{\psi}(s_{t+1})- \mathcal{Q}_{\phi}(s_{t},a_{t}))^{2}].
      $$
  • 如公式6所示, \(Q\) 与底层策略 \(\pi\) 在后项期望中耦合。然而, \(Q_{\phi}(s_{t},a_{t})\) 仅接收单状态-动作对而无策略指示,导致价值预测基于实际收集数据集的策略 \(\pi_{\beta}\),与生成式自动竞价中由不同条件指示的策略 \(\pi_\epsilon\) 产生策略差距
  • 通过QT推演(Rollout via QT) :为通过历史轨迹表示实际策略 \(\pi_\epsilon\),论文利用Transformer的序列建模能力进行Q值学习,称为 \(QT\):
    $$
    Q^{\pi_\epsilon }_{\phi}(s_{t},a^i_{t})=Q_{\phi}(s_{t},a^i_{t};\pi_\epsilon)=\textrm{QT}_{\phi}(s_{t},a^i_{t};s_{ < t},a_{ < t}).
    $$
  • 大规模预训练集(包含多样化策略收集的轨迹)有助于通过历史轨迹预测未来轨迹,即 rollout \(\{s_{\leq t},a_{\leq t}\}\rightarrow\{s_{t+1:T},a_{t+1:T}\}\)。训练后, \(\textrm{QT}_{\phi}(s_{t},a^i_{t};s_{ < t},a_{ < t})\) 可返回竞价结束前推演价值的近似值
反向传播
  • 由于Q值函数的高估问题,不准确的推演价值估计会导致反向传播为动作节点 \(a^i_{t}\) 提供不准确的价值,从而执行不良动作。为缓解此问题,论文提出基于共识启发式的Q投票机制
  • 通过Q投票的价值反向传播 :鉴于离线RL的成功(Q值用于学习改进行为策略的策略),论文可直观认为不同随机训练的Q值网络能以高概率对真实最佳动作赋予更高价值达成一致。此外,由于高估是偶然错误,对特定动作赋予更高价值不会达成一致。形式上,若用不同随机种子独立训练 \(M\) 个Q值网络 \(\{Q^{\pi_\epsilon }_{\phi_{k} }\}_{k=1:M}\),且有 \(N\) 个动作提议 \(\{a^i_{t}\}_{i=1:N}\) 及真实最佳动作 \(a^j_{t}\),论文通过概率密度函数 \(p(a|Q)\) 建模共识启发式:
    $$
    \textbf{Consensus:}\ p(a^j_{t}|Q_{\phi_{k} }^{\pi_\epsilon})>p(a_{t}^{i\neq j}|Q_{\phi_k}^{\pi_\epsilon}),\forall k\in\{1,…,M\}.
    $$
  • 因此,若仅使用单一Q,选择 \(a^j_{t}\) 的最终胜率为:
    $$
    \mathcal{R}^{k}:=\frac{p(a^j_{t}|Q_{\phi_{k} }^{\pi_\epsilon })}{\sum_{i\neq j}p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })}.
    $$
  • 基于此共识,可采用多数投票方法提高胜率 \(\mathcal{R}^{k}\)。为简洁起见,假设所有 \(k\in\{1,…,M\}\) 的 \(p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })\) 相同。通过多数投票选择动作 \(a^i_{t}\) 为最终动作的概率为:
    $$
    p(a^i_{t}|\{Q_{\phi_{k} }^{\pi_\epsilon }\}_{k=1:M})=\sum_{l=\left\lfloor \frac{M}{2} \right\rfloor+1}^{M}\binom{M}{l}p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })^{l}(1-p(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon }))^{M-l}.
    $$
  • 应用Condorcet’s Jury theorem(Boland,1989),可得:
    $$
    \mathcal{R}^{1:M}=\frac{p(a^i_{t}|\{Q_{\phi_k }^{ {\pi_\epsilon } }\}_{k=1:M})}{\sum_{i\neq j}p(a^i_{t}|\{Q_{\phi_k }^{ {\pi_\epsilon } }\}_{k=1:M})}>\mathcal{R}^{k}.
    $$
    • 为简化理解,我们假设 \(p(a^1_{t}|Q_{\phi_{k} }^{\pi_\epsilon }) = 0.4\), \(p(a^2_{t}|Q_{\phi_{k} }^{\pi_\epsilon }) = 0.3\),\(p(a^3_{t}|Q_{\phi_{k} }^{\pi_\epsilon }) = 0.3\),则有对于 \(\forall k\),有 \(\mathcal{R}^{1:3} = 0.81 > \mathcal{R}^k = 0.67\)
  • 为避免无效多数投票结果(即无动作获得比其他动作更多的票数),论文提出基于Q值的软多数投票机制(Q投票),分两步实现:
    • 第一步 :对每个 \(Q_{\phi_{k} }^{\pi_\epsilon }\),基于所有 \(a^i_{t}\) 的min-max归一化投票为:
      $$
      v(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon })=\frac{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})-\min_{n}\{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})\} }{\max_{n}\{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})\}-\min_{n}\{Q_{\phi_{k} }^{\pi_\epsilon }(s_{t},a^i_{t})\} }\in[0,1].
      $$
    • 第二步 : 动作 \(a^i_{t}\) 的最终总票数为:
      $$
      v(a^i_{t}|\{Q_{\phi_{k} }^{\pi_\epsilon }\}_{k=1:M})=\sum_{k=1}^{M}v(a^i_{t}|Q_{\phi_{k} }^{\pi_\epsilon }).
      $$
  • 完成上述MCTS启发搜索后,可得到比 \(a_{t}\) 具有更高偏好价值的优化动作 \(a^n_{t}\)

基于GAS的竞价

  • GAS有两种应用方式:i)在测试时搜索,ii)利用搜索微调基础策略模型。两种方法均需训练表示不同偏好的 Critic 模型
  • 偏好表示 :偏好通过奖励函数设置表达,例如:
    • 仅考虑预算约束的最大回报竞价偏好: \(r_{t}=o_{t}v_{t}\) ;
    • 综合考虑价值和KPI约束的偏好: \(r_{t}=o_{t}v_{t}\cdot\frac{1}{J}\sum_{j}\min\left\{\big(\frac{C_{j} }{c_{tj}o_{t}/p_{tj}o_{t} }\big)^{\beta},1\right\},\beta>1\) ;
      • 问题:是加法吧?
    • 通过更大可控权重 \(w\) 更偏好KPI约束的偏好: \(r_{t}=o_{t}v_{t}+\frac{w}{J}\sum_{j}\min\left\{(\frac{C_{j} }{c_{tj}o_{t}/p_{tj}o_{t} })^{\beta},1\right\},\beta>1\)
  • 基于公式8,可利用这些奖励函数训练 Critic 模型
基于搜索的推理
  • 在推理的每个时间步重复第3.1节的搜索过程,得到测试时版本的方法_GAS-infer_,可直接与基础策略模型和多个 Critic 模型部署。详细流程见算法1
基于搜索的微调
  • 由于搜索方法能够围绕基础动作找到更优动作(尤其是基础动作质量差或与偏好不对齐时),可利用搜索增强训练数据并微调基础策略模型。首先,对数据集中的每个数据点 \(\{s_{t},a^{\beta}_{t}\}\) 进行搜索,得到更优动作 \(a^{\rho}_{t}\)。然后,基于监督微调(sfft)损失训练DT \({}_{\theta}\) :
    $$
    \mathcal{L}_{\text{DT} }^{\text{sft} }(\theta)=mse(a_{t},a^{\rho}_{t}).
    $$
  • 尽管存在更多偏好对齐方法(如DPO和RLHF),但它们通常基于轨迹级查询数据集且稳定性较差,因此留作未来工作

Experiments

Experiment Setup

  • 数据集 :与以往从非开源的广告自动出价系统中收集私有竞价日志的数据集准备方法不同,论文采用了阿里巴巴[43]发布的新公开大规模真实世界竞价数据集AIGB。据论文所知,这是目前最大的公开数据集,包含超过200万条轨迹,并提供了一个稀疏版本以应对更具挑战性的场景。更多细节见附录A
  • 评估指标 :为简化评估,论文采用以下三个指标衡量性能:
    • 价值(Value) :竞价期间获得的总价值,计算公式为\(\sum_{i} o_{i} v_{i}\);
    • KPI约束超限率(ER) :引入二元指示函数\(I(x^{h}_{j}, C_{j})\),判断在周期\(h\)内的最终KPI表现\(x^{h}_{j} = \Sigma_{i} c_{ij} o_{i} / \Sigma_{i} p_{ij} o_{i}\)是否超过给定约束\(C_{j}\)。假设共有\(H\)个周期,KPI约束超限率定义为:
      $$
      ER = \frac{1}{H} \sum\nolimits_{h=1}^{H} \sum\nolimits_{j=1}^{J} \mathbb{I}(x^{h}_{j}, C_{j}).
      $$
    • 综合得分(Score) :引入惩罚项
      $$
      penalty_{j} = \min\left\{\left(\frac{C_{j} }{\Sigma_{i} c_{ij} o_{i} / \Sigma_{i} p_{ij} o_{i} }\right)^{\beta}, 1\right\}, \beta=2,
      $$
    • 综合得分是价值与KPI约束的平衡,计算公式为:
      $$
      score = \left(\sum_{i} o_{i} v_{i}\right) \times \min\{penalty_{j}\}_{j=1}^{J}.
      $$
  • 基线方法 :论文对比了多种基于 RL 和生成模型的方法:
    • USCB[18]:一种在线RL方法,动态调整参数至最优出价;
    • BCQ[14]:典型的离线RL方法,仅通过固定数据集更新策略;
    • CQL[23]:通过正则化Q值学习保守价值函数的离线RL方法;
    • IQL[22]:无需查询样本外动作即可实现多步动态规划更新的离线RL方法;
    • DiffBid[17]:基于扩散模型的生成方法,根据条件生成竞价轨迹;
    • DT[7]:基于Transformer的序列决策生成方法;
    • CDT[26]:考虑多约束向量的DT改进方法;
    • DT-score :采用同时考虑获胜价值和KPI约束的奖励函数的DT方法
  • 实现细节 :基线方法的超参数参考原论文默认值,并进一步调优以优化性能。GAS包含两个组件:基础策略模型和多个QT网络。基础策略模型可任选,论文选择DT-score ,其超参数参考[43]提供的官方代码,微调时学习率设为\(1e^{-5}\)。QT网络采用6个注意力层,每层8个头,隐藏层大小为512,总计1400万参数,轻量高效。总训练步数为40万步,使用AdamW优化器[27],学习率为\(1e^{-4}\),批量大小为128。训练基于PyTorch框架,在两块NVIDIA H100 GPU上完成。QT网络的详细超参数见表6(附录B)

与基线方法的性能对比

  • 本实验在多种设置下对比各基线方法的性能,包括不同数据集(AIGB-2M及其稀疏版本AIGB-sparse)和MCB竞价中的不同预算约束(最大允许预算的50%、75%、100%、125%、150%)。结果以综合得分衡量,如表1所示
  • 结果显示,GAS-infer和GAS-sft在所有预算设置下均优于其他方法,得分最高。其他生成方法如DT、CDT和DT-score表现也较好,体现了生成模型相较于传统RL方法(如IQL)的优势。DiffBid在此大规模任务中表现不佳,可能原因是预测长轨迹和学习逆动态模型引入了额外挑战。稳定性方面,如图2(d)所示,GAS优于基础策略模型。GAS-sft性能略低于GAS-infer,可能因其将 Critic 与原始模型融合,导致评论能力模糊化。需注意的是,Q-voting过程可并行执行,每步耗时约0.1秒,远小于30分钟的竞价间隔,表明GAS-infer在大规模自动竞价任务中极具效率

偏好对齐性能

  • 为验证搜索方法能否通过不同偏好的 Critic 提升基础策略模型的对齐性能,论文在表2中进行了偏好对齐实验。评估了三种偏好范式(Score-first、Value-first、ER-first)下GAS-infer和GAS-sft与基础模型DT-score的对齐效果。结果显示,两种搜索方法在所有偏好下均优于基础模型,证明了搜索在偏好对齐中的有效性

消融实验

  • 搜索范围 :搜索范围直接影响探索(尝试新动作)与利用(聚焦已知优质动作)的平衡。较小的范围可能遗漏优质动作,但能更精确评估;较大的范围增加发现最优动作的概率,但评估准确性可能下降。极端情况下可搜索整个动作空间,但效率低下。基于计算效率考虑,论文在±10%范围内随机搜索5个动作,结果如图2(c)所示。实验表明,10%的搜索范围性能最佳,扩大范围收益递减,而最小-最大方法因动作预算有限效果最差。值得注意的是,10%的小范围即可实现最优性能,表明基于基础策略模型的微调已足够高效
  • Critic 数量 :如Q-voting机制所述,更多 Critic 可提升价值评估的准确性。论文固定搜索范围为±10%,随机选择5个动作进行价值评估,结果如图2(b)所示。 Critic 数量从1增至7时性能显著提升,超过7后改善不明显,表明当前任务中7个 Critic 已足够
  • 搜索预算 :增加动作采样数量可能提升找到最优动作的概率。本实验未使用原始基础动作,结果如图2(a)所示。动作数量从1增至5时性能显著提升,超过5后趋于稳定,表明5个动作已能覆盖近优解
  • QT的有效性 :由于跳过了实际模拟过程,Q值函数对预期收益的预测准确性至关重要。若缺乏历史轨迹信息,仅凭状态\(s_t\)和动作\(a_t\)预测模拟过程具有高度随机性。表3结果显示,结合历史轨迹的QT性能远超基于普通状态-动作对的Q值函数
  • 论文还对比了无Q值函数的其他方法(贪婪搜索、随机/均值选择)以验证MCTS搜索的有效性。贪婪搜索选择即时奖励最高的动作,随机方法随机选择动作,均值方法取5个随机动作的平均值。如表3所示,论文的方法显著优于其他方法

线上实验

  • 为验证GAS的实际效果,论文将其部署在快手广告系统中(见图1(b)),场景为多约束竞价(MCB)。由于线上测试资源有限且可能影响广告主收益,仅对比了GAS-infer与当前生产环境的基线模型DT。实验设置如下:
    • 状态 :预算、成本、基于时间的预算分配、成本速度、预测转化率、实时CPA/ROI状态等;
    • 动作 :调整上一时刻的竞价系数\(\lambda_t = \lambda_{t-1} + a_t\)(见公式2);
    • 训练后搜索 : Critic 以获胜印象的总价值训练,搜索在Value-first偏好下进行,动作范围仍为基动作的±10%,采样5个点
  • 线上A/B测试持续5天,每个MCB活动分配25%预算和流量给基线模型和GAS。结果如表4所示,GAS在展示量(+0.934%)、成本(+0.953%)、目标成本(+1.554%)和整体ROI(+0.595%)上均显著提升

CA——M-PID

  • 参考链接:
    • 原始论文:Bid Optimization by Multivariable Control in Display Advertising, KDD 2019, Alibaba

整体思路介绍

  • 实时竞价(RTB)是展示广告中的重要范式,广告主利用需求方平台(DSP)提供的信息和算法来提升广告效果
    • DSP面临的一个常见问题是在预算约束下帮助广告主获取最大价值
    • 实际场景中,广告主通常会添加某些关键绩效指标(KPI)约束,广告 campaign 必须满足这些约束
  • 论文研究广告主旨在最大化转化量并将每次点击成本(CPC)作为KPI约束的常见情况
    • 论文将此问题转化为线性规划问题,并利用 primal-dual 方法推导出最优竞价策略
    • 为了解决适用性问题,论文提出了一种基于反馈控制的解决方案,并设计了多变量控制系统
  • 基于淘宝网真实数据的实证研究验证了论文的方法相比行业最新实践的有效性和优越性

一些讨论

  • 在在线展示广告中,广告主为展示广告的机会支付一定费用。实时竞价(RTB)是展示广告中最流行的范式。RTB允许广告主在展示级别对广告机会进行竞价 ,出价最高的广告主赢得展示其广告的机会(每个广告机会的竞价价格可以跟随其效用和成本而改变,这使得广告主能够利用DSP提供的扩展信息和算法)
  • DSP面临的一个常见问题是在预算约束下帮助广告主获取尽可能多的价值。已有一些竞价策略和算法被提出,用于在预算约束下最大化广告价值。因此,广告主只需设置广告 campaign 的预算,DSP会代表广告主计算竞价价格
  • 除了预算约束外,广告主通常会添加某些关键绩效指标(key performance indicator,KPI)约束,广告 campaign 必须满足这些约束
    • KPI设置的必要性 :广告主设置此类KPI约束是因为仅具有单一预算约束的广告 campaign 可能会受到竞价环境波动导致的流量巨大变化的影响。例如,某些日期的广告机会可能变得非常昂贵,以至于广告主无法承担所有预算
    • 解决方案1 :一种解决方案是不断调整每日预算以控制投资,这对广告主来说成本高昂甚至不切实际
    • 解决方案2 :另一种解决方案是设置某些KPI约束,每千次展示成本(CPM)和每次点击成本(CPC)约束,对广告投放的总成本有很强的影响
      • 通过设置此类KPI约束,广告主可以对总成本施加限制,并在广告机会不值得时避免花费所有预算,从而免去频繁调整广告 campaign 设置的繁重工作
      • 此外,KPI约束还作为实时代理来调节广告效果。在大多数情况下,广告主最终希望获得转化。然而,转化是稀疏且延迟的,这使得广告主无法实时评估广告效果。因此,广告主使用DSP提供的KPI来评估广告的预期价值 ,并将其设置为约束以确保广告效果可控
    • 论文重点关注CPC约束 ,这是最常见的KPI约束之一。论文的方法可以推广到其他与成本相关的KPI约束 ,如CPM约束
  • 论文提出了在预算和CPC约束下最大化广告转化量的最优竞价策略。在这项工作中,竞价优化被表述为一个线性规划问题,并利用 primal-dual 方法推导出最优竞价策略
  • 论文提出了基于最优竞价策略的多变量控制系统 ,以解决适用性问题,特别是在工业应用中面临的动态环境
    • PID控制系统 :基于对竞价策略中超参数的分析,论文声称这些超参数在实现相应约束方面具有强大的控制能力,并设计了独立的PID控制系统
    • 模型预测控制系统 :考虑到耦合效应,论文通过提出模型预测控制系统进一步提高了系统的性能
  • 论文所提出的系统已在真实工业数据集上实现和评估。基于淘宝网真实数据的实验表明,这些系统在实现约束方面具有强大的控制能力。论文还将论文的方法与行业最新实践进行了比较,结果显示了论文方法的优越性。论文工作的主要贡献可以总结如下:
    • 论文提出了在预算和CPC约束下最大化转化量的最优竞价策略
    • 论文设计了多变量控制系统 ,以应对在工业应用中应用竞价策略时的动态环境
    • 进行了广泛的实验 ,结果证明了论文方法的优势

竞价策略

  • 在本节中,论文首先回顾RTB生态系统的一些基础知识,然后提出竞价优化问题。接着,论文推导最优竞价策略,并讨论竞价策略的特性

RTB生态系统

  • RTB的工作流程如图1所示,每一步如下:

    • 1)用户访问一个支持广告的网站,网站向广告交换平台发送广告请求
    • 2)广告交换平台发起拍卖并向DSP请求竞价
    • 3)DSP代表广告主向广告交换平台提交竞价价格和广告
    • 4)广告交换平台进行拍卖并向获胜的DSP收取广告机会费用
    • 5)获胜者的广告被发送到网站
    • 6)用户的后续反馈会被发送回相应的DSP
  • 当DSP从广告交换平台接收到竞价请求时,它会通过其竞价策略为广告主计算竞价价格。由于转化是大多数广告主的目标事件 ,几乎所有竞价策略(包括论文的策略)都严重依赖于学习模型的能力来估计广告点击率(CTR)和转化率(CVR)。此外,一些DSP还可能基于对获胜价格(竞价环境预测)的预测来制定竞价策略。论文假设估计和预测问题已经解决,点击和转化的预期概率可以分别通过CTR和CVR量化

  • 当DSP在拍卖中赢得展示广告的机会时,它会被收取一个价格。在广义第二价格(GSP)拍卖机制下,该价格等于第二高的竞价价格,该机制在工业平台中被广泛采用。还有一些其他拍卖机制,如Vickrey-Clarke-Groves拍卖机制(VCG)。在论文中,不失一般性,论文基于最常见的GSP拍卖机制进行讨论和建模

  • 用户对广告的任何反馈,如点击和转化,都会被发送回相应的DSP。DSP可以利用这些反馈来训练预测模型,并及时调整其竞价策略。此外,这些反馈会被DSP整合并暴露给广告主。在论文提出的系统中,论文利用这些反馈,并在广告 campaign 的生命周期中持续微调竞价策略

问题建模

  • 假设一天中有 \(N\) 个广告机会,论文按生成顺序将每个广告机会索引为 \(opportunity_i\) 。每个广告机会对广告主具有不同的价值,论文用 \(v_i = CTR_i \cdot CVR_i\) 表示 \(opportunity_i\) 对广告主的价值。基于 \(v_i\) ,计算竞价价格 \(bid_i\) 并提交给广告交换平台。每个广告机会有一个获胜价格 \(wp_i\) 。从广告主的角度来看, \(wp_i\) 等于其他广告主的最高竞价价格。如果 \(bid_i\) 高于 \(wp_i\) ,这意味着广告主将赢得广告机会并在GSP拍卖机制下被收取 \(wp_i\) ,论文将 \(x_i\) 设为1,否则设为0。广告 campaign 的总价值和总成本如公式(1)和公式(2)所示
    $$
    Value = \sum_{i=1\ldots N} x_i \cdot v_i \\
    Cost = \sum_{i=1\ldots N} x_i \cdot wp_i
    $$
  • 论文在公式(3)中定义CPC。值得注意的是,论文用CTR替换了实际点击,这为论文提供了更简洁的公式。这种替换在很大程度上促进了论文的理论分析,并且对后续的实际系统设计影响很小
    $$CPC = \frac{\sum_{i=1\ldots N} x_i \cdot wp_i}{\sum_{i=1\ldots N} x_i \cdot CTR_i} \tag{3}$$
  • 转化是广告主最终希望的结果。因此,论文通过 \(CTR_i \cdot CVR_i\) 量化 \(v_i\) 。请注意,必须考虑 \(CTR_i\) ,因为只有在点击后才能生成转化,而CVR是以点击为条件的。论文将问题总结如下,并将其建模为(LP1,包含约束(4)和约束(5)),论文在预算 \(B\) 下最大化广告转化量,并保证CPC不超过给定值 \(C\) :
    $$
    \begin{align}
    \max_{x_i} \sum_{i=1\ldots N} x_i \cdot CTR_i \cdot &CVR_i \text{(LP1)}\\
    \text{s.t.} \quad \quad \sum_{i=1\ldots N} x_i \cdot wp_i &\leq B \\
    \frac{\sum_{i=1\ldots N} x_i \cdot wp_i}{\sum_{i=1\ldots N} x_i \cdot CTR_i} &\leq C \\
    0 \leq x_i &\leq 1, \forall i
    \end{align}
    $$

最优竞价策略

  • 问题(LP1)实际上是一个线性规划问题,即在线性约束下找到最优的 \(x_i\) 以最大化目标函数。已有许多算法直接解决此类问题,但论文的目标是推导最优竞价策略而非分配策略。换句话说,论文本质上并不关心 \(x_i\) 的值,而是关心内在影响 \(x_i\) 的竞价策略。基于此考虑,论文创造性地采用 primal-dual 方法。每个线性规划问题(称为原始问题)都可以转换为对偶问题。此外,根据对偶定理(duality theorem),最优原始解可以通过相应的对偶解获得。这些数学特性为论文提供了一些启示,论文整合原始空间和对偶空间,推导出以下定理:
  • 定理2.1 :最优竞价策略的公式为:
    $$bid_i = \frac{1}{p + q} \cdot CTR_i \cdot CVR_i + \frac{q}{p + q} \cdot CTR_i \cdot C \tag{6}$$
    • 最优竞价策略在公式(6)中给出,其中 \(p\) 和 \(q\) 是从对偶空间引入的超参数,对应于最优对偶解。论文将在后续章节中研究 \(p\) 和 \(q\) 的性质。现在,论文给出定理2.1的证明
  • 证明 :(LP1)被转换为对偶问题:
    $$
    \begin{align}
    \min_{p, q, r_i} B \cdot p + \sum_{i=1\ldots N} r_i \quad &\text{(LP2)} \\
    \text{s.t.} wp_i \cdot p + (wp_i - CTR_i \cdot C) q + r_i &\geq CTR_i \cdot CVR_i, \forall i \\
    p &\geq 0,\\ q &\geq 0,\\ r_i &\geq 0, \forall i
    \end{align}
    $$
    • 假设原始问题(LP1)的最优解为 \(x_i^*, \forall i = 1, \ldots, n\) ,对应的对偶问题(LP2)的最优解为 \(p^*, q^*, \{r_i^* | i = 1, \ldots, n\}\) 。根据互补松弛定理,论文得到:
      $$x_i^* \cdot (CTR_i \cdot CVR_i - wp_i \cdot p - (wp_i - CTR_i \cdot C) q - r_i) = 0, \forall i \\
      (x_i^* - 1) \cdot r_i^* = 0, \forall i \tag{8&9}$$
    • 论文巧妙地设最优出价形式为:
      $$\color{red}{bid_i^* = \frac{1}{p^* + q^*} CTR_i \cdot CVR_i + \frac{q^*}{p^* + q^*} C \cdot CTR_i}$$
      • 特别说明 :这里的公式形式是有规律的,直接对原始问题构造拉格朗日函数,然后令原始拉格朗日函数对 \(x_i\) 的偏导数为0,即可得到 \(wp_i\) 的形式,其他类似约束问题也可以这样求解最优出价形式
    • 最优出价形式的验证 :
      • 将公式(8)转换为公式(10):
        $$x_i^* \cdot ((bid_i^* - wp_i)(p^* + q^*) - r_i^*) = 0, \forall i \tag{10}$$
      • 根据公式(10):
        • 如果广告 campaign 赢得 \(opportunity_i\) ,即 \(\color{red}{x_i^* > 0}\) ,则 \((bid_i^* - wp_i)(p^* + q^*) - r_i^* = 0\) 。同时, \(p^* \geq 0, q^* \geq 0, r_k \geq 0\) ,因此 \(\color{red}{bid_i^* \geq wp_i}\)
        • 如果广告 campaign 失去 \(opportunity_i\) ,即 \(\color{red}{x_i^* = 0}\) ,我们可以从公式(9)推导出 \(r_i^* = 0\) 。因此,根据公式(7),论文得到 \((bid_i^* - wp_i)(p^* + q^*) < 0\) ,即 \(\color{red}{bid_i^* \leq wp_i}\)
  • 综上所述,对于任何 \(opportunity_i\) ,竞价策略将保证 \(x_i\) 是最优的,从而得到(LP1)的最优解。也就是说,当最优 \(x_i\) 为1(广告 campaign 应赢得 \(opportunity_i\) )时,基于最优竞价策略的竞价价格 \(bid_i\) 高于 \(wp_i\) ,这将保证广告 campaign 赢得 \(opportunity_i\) 。当最优 \(x_i\) 为0时,推理相同。因此,广告 campaign 只需按照公式(6)中的最优竞价策略进行竞价,总广告价值将在约束条件下最大化。
  • 关于 \(p\) 和 \(q\) 的讨论 :公式(6)并未明确给出 \(p\) 和 \(q\) 的值。实际上,通过使用成熟的线性规划算法求解对偶问题,可以轻松推导出最优的 \(p\) 和 \(q\) 。此类工作对论文的理解没有贡献,因此论文在此不讨论如何计算 \(p\) 和 \(q\) 的值
  • 引入点击出价 \(c\_bid_i\) 变量 :论文将(LP1)的最优竞价策略重新表述为两个阶段,如公式(11)、公式(12)和图2所示,其中 \(c\_bid_i\) 可以视为点击的竞价价格。当一个广告机会到来时,论文首先确定点击的竞价价格,即 \(c\_bid_i\) 。在确定 \(c\_bid_i\) 后,最终竞价价格通过将 \(c\_bid_i\) 与 \(CTR_i\) 相乘来计算,这一过程可以自动完成,并在后续讨论中省略
    $$c\_bid_i = \frac{1}{p + q} \cdot CVR_i + \frac{q}{p + q} \cdot C \tag{11}$$
  • 进一步地,有曝光出价为:
    $$
    \begin{align}
    bid_i &= c\_bid_i \cdot CTR_i \\
    &= \left( \frac{1}{p + q} \cdot CVR_i + \frac{q}{p + q} \cdot C \right) \cdot CTR_i \tag{12}
    \end{align}
    $$
  • 此外,在GSP拍卖机制下,点击的成本自然不高于点击的竞价价格,因此 \(c\_bid_i\) 直接与CPC相关。因此,为了便于演示,论文将讨论重点放在点击的竞价价格( \(c\_bid_i\) )上,而非最终竞价价格
  • 论文以一些明显的事实开始讨论最优竞价策略,如图2a所示
    • 第一,点击的竞价价格与 \(CVR_i\) 严格正相关。这很有道理:论文应该为更有价值的点击提供更高的竞价价格,为价值较低的点击提供较低的价格
    • 第二,竞价价格相对于 \(CVR_i\) 是线性的。这是一个自然的结果,因为论文要最大化价值的和,而价值是相对于 \(CVR_i\) 本身的线性函数
    • 第三,竞价策略肯定会穿过图中强调的两个点。论文将在后续分析中详细讨论这一点
    • CVR为0时,点击出价不为0 :论文中有一个不寻常的事实:与广泛采用的竞价策略不同,该函数不一定通过原点。具体来说,即使广告机会对广告主没有价值,竞价价格也可能非零。论文为一个没有价值的广告机会出非零价格有点反直觉
      • 论文陈述原因如下:考虑到给定CPC约束 ,竞价策略试图赢得一些廉价的广告机会,即使没有任何价值,以降低整体CPC ,从而赢得一些具有高CPC的有价值广告机会

系统设计

  • 在本节中,论文解决了竞价策略在工业场景中的适用性问题,并提出了基于反馈控制的解决方案。基于对最优竞价策略中超参数的分析,论文提出了多变量控制系统

适用性问题

  • 如(LP2)所示,为了求解线性规划问题并获得最优竞价策略,论文需要准确知道一天中每个广告机会的信息,包括获胜价格、CTR和CVR。然而,在现实世界中,这些信息直到一天结束时才能获得,而最优竞价策略需要在广告 campaign 开始前确定
  • 除了在广告 campaign 开始前难以精确预测所有这些信息之外,如何预测一天中的广告机会本身仍然是一个开放性问题 ,因为动态环境(dynamic environment)
    • 有人可能认为有许多统计算法可以解决此类问题:可以从足够的历史数据中推导出最优解,并应用于未来(此类算法的一个强假设是变量的分布是平稳的)。然而,在动态RTB环境中,不仅广告机会的分布 ,其他因素如获胜价格、CTR和CVR的分布也不是平稳的。因此,基于历史数据推导的最优竞价策略对未来不再最优 ,甚至可能打破CPC约束

基于反馈控制的解决方案

  • 如上一节所述,由于动态竞价环境,论文基于历史数据推导的竞价策略可能不可靠。因此,论文需要利用实时信息来调整竞价策略。反馈控制通过从系统输出和外部噪声中处理动态系统(dynamic system)(Kumar等,2014),因其鲁棒性和有效性而在工业中被广泛采用。反馈控制系统(feedback control problem)通过基于系统输出的反馈调整系统输入来实现理想的性能
  • 在论文的场景中,论文自然可以将竞价策略和RTB环境集成为一个动态系统 ,并将竞价策略的超参数 \(p\) 和 \(q\) 视为系统的输入。通过这样做,问题被转化为反馈控制问题
  • 仍然有一个问题:什么是理想的性能,因此论文应该关心输出的哪些反馈?首先,论文的目标是最大化广告价值并控制CPC。其次,为了最大化广告价值,论文应该在时间上分散预算支出以赢得有价值的广告机会。因此,论文需要同时控制预算支出和CPC。论文提出以下反馈解决方案:为了提高广告性能,论文基于实时反馈控制预算支出和CPC
  • 关于控制器的介绍 :论文简要介绍标准的反馈控制系统。反馈控制系统的框图如图3所示。输出的期望值称为参考值 ,根据具体任务预先设定。传感器从系统输出中测量变量的实际值,并将其传输给控制器。通过比较测量值和参考值 ,控制器会根据其预定义的算法或策略调整系统输入,以减小它们之间的差异
    • 比例-积分-微分(Proportional-Integral-Derivative,PID)控制器(Bennett,1993)是工业中最广泛采用的反馈控制器。已知PID控制器在缺乏对底层过程了解的情况下提供最佳性能(Åström和Hägglund,1995)
    • PID控制器用法介绍 :PID控制器在每个时间步 \(t\) 连续计算测量值 \(y(t)\) 和参考值 \(r(t)\) 之间的误差 \(e(t)\) ,并基于误差的比例、积分和微分项的组合产生控制信号 \(u(t)\) 。控制信号 \(u(t)\) 然后被发送以通过执行器模型 \(\phi(x(0), u(t))\) 调整系统输入 \(x(t)\) 。在在线广告场景中,使用离散时间步 \((t_1, t_2, \ldots)\) 是实际和常见的,因此PID的过程可以表示为以下公式,其中 \(k_p\) 、 \(k_i\) 和 \(k_d\) 是PID控制器的权重参数

$$e(t) = r(t) - y(t) \tag{13}$$

$$u(t) = k_p e(t) + k_i \sum_{k=1\ldots t} e(k) + k_d (e(t) - e(t-1)) \tag{14}$$

$$x(t+1) = \phi(x(0), u(t)) \tag{15}$$

超参数分析

  • 多变量下的控制方法 :论文已经将问题转化为反馈控制问题,并在上一节中确定了动态系统(竞价策略和RTB)、输入参数( \(p\) 和 \(q\) )和输出变量(预算支出和CPC)。挑战在于如何通过调整 \(p\) 和 \(q\) 同时控制预算支出和CPC。由于多输入参数和多输出变量,论文不能直接在论文的场景中应用PID控制器(PID是单输入参数和单输出变量系统设计的)。已有一些多变量控制方法,如模型预测控制(Rawlings和Mayne,2009),用于处理此类系统,论文将在下一节的设计中利用其基本思想。在本节中,论文重新审视公式(11)中的最优竞价策略,并分享论文设计多变量控制系统的想法

  • 回顾最优点击出价公式:
    $$c\_bid_i = \frac{1}{p + q} \cdot CVR_i + \frac{q}{p + q} \cdot C \tag{11}$$

  • 论文分析超参数 \(p\) 和 \(q\) 如何对公式(11)中的竞价策略做出贡献。请回顾 \(p\) 和 \(q\) 是由约束(4)和(5)引入的对偶变量,论文探讨它们与相应约束的关系

  • 图4显示了在固定 \(q\) 的情况下 , \(p\) 分别减小、增大、等于0和等于 \(\infty\) 时的最优竞价策略。值得注意的是,竞价价格将直接影响预期成本:更高的竞价价格会导致更多成本,因为广告 campaign 可能赢得更多广告机会。如图4所示,随着 \(p\) 的增加或减少,竞价价格通常会降低或提升

    • 当论文增加 \(p\) 时 ,竞价策略将围绕点 \((-q \cdot C, 0)\) 顺时针旋转。结果是:高于零的竞价价格将降低 ,低于零的竞价价格将提升(注:低于零的价格图上没有画出来,实际上,低于0时不会出价),从而预期成本将减少。以 \(p = \infty\) 和 \(p = 0\) 作为极端例子。当 \(p = \infty\) 时,广告 campaign 的竞价价格始终为零,因此永远不会被收费。当 \(p = 0\) 时,预算不再是一个约束。竞价价格不会无限高,因为仍然存在CPC约束,并且竞价策略的斜率完全由 \(q\) 控制。如果论文同时将 \(q\) 设为0,这意味着CPC约束也被移除,竞价价格将无限高,广告 campaign 将赢得所有广告机会。根据图示,论文声称 \(p\) 对预算支出具有直接和有效的控制能力,并且可以明确降低预算支出速度

  • 以类似的方式,论文固定 \(p\) 并将 \(q\) 分别设为减小、增大、等于0和等于 \(\infty\) 。如图5所示, \(q\) 对最优竞价策略的影响与 \(p\) 的影响显著不同

    • 当论文增加 \(q\) 时 ,竞价策略将围绕点 \((p \cdot C, C)\) 顺时针旋转。增加 \(q\) 时,高于 \(C\) 的竞价价格将降低,低于 \(C\) 的竞价价格将提升。因此,广告 campaign 将赢得更多CPC低于 \(C\) 的广告机会,而减少CPC高于 \(C\) 的广告机会。综合结果是CPC更有可能低于 \(C\) 。在极端情况下,当 \(q = \infty\) 时,CPC将保证低于 \(C\) 。当 \(q\) 设为0时,意味着CPC约束被移除,竞价策略由 \(p\) 决定 ,并退化为(Perlich等,2012;Zhang等,2016)中的最优预算约束竞价策略。基于分析,论文声称CPC可以通过 \(q\) 明确控制。论文提出以下两个陈述:
      • 1)超参数 \(p\) 对预算支出具有直接和有效的控制能力,并且在任何 \(q\) 值下,预算支出速度都可以通过 \(p\) 明确降低
      • 2)超参数 \(q\) 对CPC具有直接和有效的控制能力,并且在任何 \(p\) 值下,CPC约束都可以通过调整 \(q\) 明确实现

多变量控制

  • 如上一节所述,预算支出和CPC可以分别通过 \(p\) 和 \(q\) 明确控制。换句话说, \(p\) 和 \(q\) 可以用于独立控制预算支出和CPC,并将彼此视为外部噪声。因此,我们可以将多变量反馈控制问题分解为两个单变量反馈控制问题。通过这样做,PID控制器可以轻松部署,论文提出了图6中的独立PID设计,其中论文稍微滥用下标 \(p\) 和 \(q\) 以区分两个控制器
  • 进一步,论文重新审视之前的分析。如图4所示,增加 \(p\) 通常会降低竞价价格并减少预算支出速度。增加 \(p\) 引起的另一个 non-trivial 影响是预期CPC也会降低。根据这些观察,调整 \(p\) 实际上会对CPC产生影响。类似地,调整 \(q\) 也会对预算支出产生了影响。尽管论文的独立PID控制系统可以处理这种耦合效应(控制器将其视为外部噪声),但通过解决此类问题,可以进一步提高系统的性能。然而,由于论文对动态系统没有明确的了解,这种耦合效应难以量化和补偿
  • 为了解决上述问题,论文利用模型预测控制(MPC)(Rawlings和Mayne,2009)的基本思想来预测和补偿耦合效应。值得注意的是,论文没有直接在控制系统中应用MPC ,因为建模高度非线性的RTB环境成本高昂甚至不切实际。在论文的设计中,结合人类知识,模型预测模块仅需预测耦合效应,这可以通过线性模型近似。如图7所示,在PID控制器之后部署了一个模型预测模块,通过解决耦合效应来调节控制信号
  • MPC最重要的组成部分之一是表示动态系统行为的模型。在论文的案例中,论文针对成本和CPC对竞价环境进行建模:
    • 如公式(16)所示,其中 \(\mathbf{X}\) 是一个 \(2 \times 2\) 矩阵, \(\mathbf{b}\) 是一个 \(2 \times 1\) 矩阵
    • 在从反馈中获得预期的 \(\Delta cost\) 和 \(\Delta CPC\) 后,我们可以通过求解公式(17)中的方程来调整 \(p\) 和 \(q\) ,并推导出如公式(18)所示的结果
    • 公式(18)表明, \(p\) 和 \(q\) 的控制信号应该是成本和CPC变化的线性组合
    • 因此,论文通过公式(19)定义模型预测模块:
      • 其中 \(\Delta cost\) 和 \(\Delta CPC\) 分别由 \(u_p(t)\) 和 \(u_q(t)\) 量化,
      • 而 \([\mathbf{X}]^{-1}\) 由 \(\alpha\) 和 \(\beta\) 确定的 \(2 \times 2\) 矩阵近似
      • 通过近似 \([\mathbf{X}]^{-1}\) ,我们可以简单地将 \(\alpha\) 和 \(\beta\) 视为两个权重参数,并在训练集中搜索其最佳值
        • 尽管这种近似削弱了表示系统的能力,但它使控制器在变化的环境中更加鲁棒和稳定
        • 问题: \(\alpha\) 和 \(\beta\) 的最佳值如何搜索?是类似PID的参数 \(K_p,K_i,K_d\) 等一样搜索吗?
    • 值得注意的是,论文提出了矩阵 \(\mathbf{X}\) 和 \(\mathbf{b}\) 来建模动态系统,然而,这些矩阵的确切值并不明确需要。如公式(19)所示,论文利用这些矩阵来解决耦合效应,并获得仅由 \(\alpha\) 和 \(\beta\) 确定的近似函数

$$\begin{bmatrix}
cost \\
CPC
\end{bmatrix}
=
\begin{bmatrix}
\mathbf{X} & \mathbf{b}
\end{bmatrix}
\begin{bmatrix}
p \\
q \\
1
\end{bmatrix}
\tag{16}$$

$$\begin{bmatrix}
\Delta cost \\
\Delta CPC
\end{bmatrix}
=
\begin{bmatrix}
\mathbf{X}
\end{bmatrix}
\begin{bmatrix}
\Delta p \\
\Delta q
\end{bmatrix}
\tag{17}$$

$$\begin{bmatrix}
\Delta p \\
\Delta q
\end{bmatrix}
=
\begin{bmatrix}
\mathbf{X}
\end{bmatrix}^{-1}
\begin{bmatrix}
\Delta cost \\
\Delta CPC
\end{bmatrix}
\tag{18}$$

$$\begin{bmatrix}
u’_p(t) \\
u’_q(t)
\end{bmatrix}
=
\begin{bmatrix}
\alpha & 1 - \alpha \\
1 - \beta & \beta
\end{bmatrix}
\begin{bmatrix}
u_p(t) \\
u_q(t)
\end{bmatrix}
\tag{19}$$


实证研究

  • 在本节中,论文进行了全面的实验,以证明论文的陈述和多变量控制系统的优势
  • 论文在示例广告 campaign 上进行了实验,以证明超参数的控制能力
  • 为了展示论文系统的优越性,论文在大量广告 campaign 上将论文的方法与行业最新实践进行了比较

Experiment Setup

数据集
  • 论文基于淘宝网的真实数据集进行实验。数据集包含40个广告 campaign 在连续多天的数据,总计2000万条竞价日志。根据日期将其分为训练数据集和测试数据集。从特定广告 campaign 的角度来看,数据集的关键信息可以总结为表1
  • 论文主要使用获胜价格、CTR和CVR的信息。每个广告机会的获胜价格在每次在线拍卖结束后记录。由于淘宝网也是一个发布商,即使广告主在在线拍卖中错过了广告机会,也可以观察到获胜价格。CTR和CVR由在线部署的模型估计,这些模型利用了用户和广告的广泛实时和历史信息。有关在线部署的估计模型的详细信息,请参阅(Zhou等,2018)
指标
  • 竞价策略和系统的目标是最大化赢得广告机会的总价值,并将CPC控制在给定阈值以下。论文通过 \(CTR \cdot CVR\) 的总和量化广告价值,这对应于转化的预期结果。值得注意的是,论文将 \(CTR \cdot CVR\) 视为价值,而非实际转化事件,以排除估计模型不准确带来的影响(注:尽管一些先前的工作通过实际转化评估竞价策略,但作者认为估计误差实际上对结果产生了 non-trivial 影响)。所以,具有固定竞价策略的广告 campaign 可能仅通过优化估计模型就获得更多点击/转化,因此论文将 \(CTR \cdot CVR\) 视为真实转化以减少这种影响
    • (1) \(R\) 表示广告 campaign 的广告价值
    • (2) \(R^*\) 表示广告 campaign 在预算和CPC约束下可以实现的最高广告价值
    • (3) \(R/R^*\) 可用于评估广告性能与理想结果的接近程度
    • (4) \(CPC_{ratio}\) 是满足CPC约束(允许10%的超调)的广告 campaign 比例,可用于在大量广告 campaign 上比较不同方法时评估CPC控制能力
    • (5) \(Value_{ratio}\) 是在CPC约束成立的广告 campaign 上的平均 \(R/R^*\) ,用于评估广告价值的实现。对于那些打破CPC约束的广告 campaign ,论文在计算 \(Value_{ratio}\) 时排除了它们的 \(R/R^*\) ,因为在论文的场景中,通过打破CPC约束赢得更多价值是不允许的
实现细节
  • 论文在PID控制器和基线策略中采用了公式(20)所示的执行器,其中 \(u(t)\) 的符号取决于输入参数和输出变量之间的关系
    $$x(t+1) = x(0) \cdot \exp(-u(t)) \tag{20}$$
  • 此外,需要注意的是,论文实际上关心的是广告 campaign 结束时的累计CPC,而每个时间步的实时CPC对累计CPC的贡献不同,因为每个时间步的点击量不同。传统的PID误差无法解决论文场景中的不同权重问题,因此论文通过点击量对误差进行加权,并修改 \(q\) 的控制信号,如公式(21)和公式(22)所示,其中 \(u(t)\) 由公式(14)计算, \(click(t)\) 表示时间步 \(t\) 的点击量。通过这种修改,PID控制器将不断增加其对累计CPC的关注,并为每个时间步赋予不同的权重:
    $$e_q(t) = click(t) \cdot (r(t) - y(t)) \tag{21}$$

$$u_q(t) = \frac{1}{\sum_{i=1\ldots t}^T click(t)} \cdot u(t) \tag{22}$$

$$u(t) = k_p e(t) + k_i \sum_{k=1\ldots t} e(k) + k_d (e(t) - e(t-1)) \tag{14}$$

  • 针对上述公式的理解:
    • \(e(t) = click(t) \cdot (r(t) - y(t))\) 表示当前时间片 \(t\) 的累计收入差异(注意:这样得到的是目标消耗和真实消耗的差异)
      $$
      \begin{align}
      e(t) &= click(t) \cdot (r(t) - y(t)) \\
      &= click(t) \cdot (\frac{targetCharge(t)}{click(t)} - \frac{realCharge(t)}{click(t)}) \\
      &= targetCharge(t) - realCharge(t)
      \end{align}
      $$
    • 从上面的推导进一步可以得到,经过这样处理的后的积分项 \(\sum_{k=1\ldots t} e(k)\) 表示全天截止到当前目标消耗与真实消耗的差异,在一些无法分时间片做特征的场景中,可以用这一项去替换这个值
      • 补充思考 :考虑到越到后面,积分项影响越大,比例项影响越小,真实场景中如果没有的话,甚至可以不使用比例项
  • 为了确定PID控制器的权重参数以及权重参数 \(\alpha\) 和 \(\beta\) ,论文在训练数据集上网格搜索最佳设置,并将其应用于测试数据集。论文将每小时视为一个时间步,因此最大时间步 \(T\) 等于24
  • 参考值设定 :如论文在前面章节中讨论的,PID控制器需要一个参考值(目标值)。在论文的实验中,广告主给出的CPC被设为控制 \(q\) 的恒定参考值。考虑到广告机会和获胜价格对成本有直接影响,并且在时间步上表现出不同的统计特征,成本参考值应根据时间步定制(如果目标就是全天达到商家的某个固定目标值呢?)。论文计算训练数据集上的成本分布,即每天每个时间步的理想成本归一化为总成本,作为成本参考
  • 论文的实验流程步骤如下:
    • 1)在训练数据集上计算最优的 \(p\) 和 \(q\) ;
    • 2)在测试数据集上模拟竞价过程,其中计算出的 \(p\) 和 \(q\) 作为初始超参数应用;
    • 3)当广告 campaign 预算耗尽或没有更多广告机会时,模拟结束

控制能力

  • 在本节中,论文进行实验以证明论文的陈述,即预算支出和CPC可以分别通过 \(p\) 和 \(q\) 独立控制。论文同时调整两个超参数,而不使用模型预测模块,并在示例广告 campaign 上分别展示预算支出和CPC的控制性能。控制性能如图8和图9所示:
  • 如图8所示,由 \(p\) 控制的每个时间步的成本围绕成本参考值波动,累计成本相对于累计成本参考值得到了良好控制。如图9所示,每个时间步的CPC迅速被限制在可容忍的范围内,累计CPC成功控制在给定的参考值以下。值得注意的是,实时CPC在时间步上表现出可观察的波动,因为论文对实时CPC的关注逐渐减少(因为积分项的影响会逐渐增大)。与实时CPC相比,累计CPC表现出稳定的性能,如图9b所示。根据实验,尽管 \(p\) 和 \(q\) 相互干扰,但它们可以独立调整以控制相应的输出变量

性能评估

  • 在本节中,论文将论文的方法与行业最新实践进行比较。论文首先介绍基线策略,并在真实数据集上评估它们
基线策略
  • Cost-min :Cost-min(Kitts等,2017)是一种在广告场景中解决多约束的通用算法,可以应用于论文的场景如下。采用竞价策略公式(23)。论文通过PID控制器根据成本参考值调整 \(b_0\) ,并将 \(c\_bid_i\) 的上限设为 \(C\) 。由于截断的竞价价格,广告 campaign 的CPC约束将始终成立。论文将给定的CPC除以广告 campaign 所有竞价日志的平均CVR来初始化 \(b_0\)
    $$ c\_bid_i = b_0 \cdot CVR_i \tag{23} $$
  • Fb-Control :Zhang等提出了一种动态调整竞价以控制CPC的反馈控制机制(Zhang等,2016)。在他们的工作中,他们采用了广义竞价策略,如公式(24)所示,并通过PID控制器根据CPC的反馈不断调整 \(b_0\) 。给定的CPC被设为 \(b_0\) 的初始值。为简单起见,论文将他们的方法称为Fb-Control
    $$ c\_bid_i = b_0 \tag{24} $$
  • Fb-Control-M :Fb-Control没有考虑点击的价值(即CVR),这对提高广告性能很重要。因此,论文修改了他们的竞价策略以更好地适应论文的场景,如公式(23)所示,其中 \(b_0\) 通过PID控制器根据论文的成本参考值进行调整,而 \(c\_bid_i\) 的上限通过独立的PID控制器根据CPC的反馈进行控制。上限由给定的CPC初始化,将在每次竞价时截断 \(c\_bid_i\)
评估结果
  • 论文在40个广告 campaign 上评估了所有方法,并计算了 \(CPC_{ratio}\) 和 \(Value_{ratio}\) 。结果总结在表2中。从表2可以看出,所有方法都能成功控制CPC,因为它们的 \(CPC_{ratio}\) 均为1.0。然而,论文的方法在广告价值实现方面显著优于基线策略。具体来说,独立PID控制系统(I-PID)和模型预测PID控制系统(M-PID)分别实现了0.892和0.928的 \(Value_{ratio}\) ,而最佳基线策略Fb-Control-M仅实现了0.709。此外,M-PID的性能优于I-PID,这表明模型预测模块通过解决耦合效应进一步提高了系统的性能

附录:相关工作(原文直译)

注:为方便check,这里均保留引用信息

  • 论文的工作与在线广告中的竞价策略和反馈控制密切相关。在线广告中的竞价策略已被广泛研究(Wang和Yuan,2015)。Zhang等(Zhang等,2014)提出了一种在预算约束下最大化点击量的最优竞价策略。Perlich等(Perlich等,2012)提出了一种基于库存评分的竞价策略。Lee等(Lee等,2013)提出了一种在预算平滑约束下的实时竞价优化方法。Zhang等(Zhang等,2016)提出了一种广义竞价策略,并通过反馈控制机制动态调整竞价以控制CPC。论文的工作与他们的不同之处在于,论文同时考虑了预算和KPI约束,并推导出最优竞价策略
  • 馈控制在在线广告中的应用也得到了广泛研究(Karlsson和Zhang,2013)。Jamali等(Jamali等,2012)提出了一种基于控制理论的推荐系统。Zhang等(Zhang等,2016)提出了一种基于反馈控制的竞价策略。论文的工作与他们的不同之处在于,论文设计了一个多变量控制系统,以同时控制预算支出和CPC
  • 此外,论文的工作还与线性规划和 primal-dual 方法相关。线性规划已被广泛应用于在线广告中的资源分配问题(Agrawal等,2014)。 primal-dual 方法已被用于解决在线线性规划问题(Buchbinder等,2007)。论文的工作与他们的不同之处在于,论文采用这种方法推导最优竞价策略而非分配策略。为了解决动态环境问题,论文利用了反馈控制理论,该理论已被许多工作证明在多种场景中有效(Jamali等,2012;Karlsson和Zhang,2013;Zhang等,2016)。其他相关工作包括点击率估计(McMahan等,2013;Zhou等,2018)、转化率估计(Lee等,2012;Yang,2017)、获胜价格预测(Wang等,2016;Wu等,2018)和预算平滑(Xu等,2015;Song等,2017)。

CA——Neural-Multi-slot-Auctions(NMA)

  • 参考链接:
    • 原始论文:NMA: Neural Multi-slot Auctions with Externalities for Online Advertising, 2022, ArXiv preprint, Meituan

整体总结

其他已有机制盘点

  • 广义第二价格拍卖(GSP)(也包括uGSP),因其易于解释和部署,几乎已成为广告拍卖机制的基准。但GSP拍卖机制忽略了外部性(假设了用户点击仅依赖于广告本身)
  • 深度神经拍卖(DNA) ,通过深度神经网络升级GSP,并在一定程度上建模了局部外部性(注:DNA忽略了广告的顺序和展示位置),然而,它仅考虑了拍卖中的集合级上下文,忽略了广告的顺序和展示位置,仍然不够
  • Vickrey-Clarke-Groves(VCG) ,与GSP和DNA相比,代表性的真实拍卖Vickrey-Clarke-Groves(VCG)考虑了外部item的影响,并在理论上可以建模全局外部性。然而,VCG导致平台收入下降,这对大多数工业界广告平台来说是不可接受的
  • 加权Vickrey-Clarke-Groves(WVCG) ,可以建模全局外部性,并在一定程度上解决了VCG的收入下降问题。然而,参数求解的高复杂性使其难以在工业场景中实际应用

关键挑战提出

  • 通过分析上述代表性拍卖机制的问题,作者认为在设计具有外部性的多槽位拍卖机制时面临三个关键挑战:
    • i)大多数拍卖机制要么仅建模局部外部性,要么低效地建模全局外部性。如何高效地建模全局外部性已成为关键点
    • ii)平台收入和社会福利(SW)是设计拍卖机制的核心指标。大多数现有工作要么专注于平台收入的最大化,要么专注于社会福利的最大化,缺乏对两者的有效平衡
    • iii)一些方法专注于理论拍卖设置,缺乏大规模工业部署的洞察

方案概述

  • 神经多槽位拍卖(NMA) :一种端到端学习的多槽位拍卖机制,以在最大化平台收入的同时减少社会福利的下降。包括四个部分:
    • 所有候选分配通过上下文感知的列表预测模块输入,该模块有效地建模了全局外部性
    • List深度排序模块,通过将参数建模为神经网络,使得复杂的拍卖机制可以端到端训练
    • List可微分排序模块,通过真实系统奖励反馈有效地训练级联的深度神经网络
    • 社会福利的辅助损失,以在最大化收入的同时有效减少其下降
  • 主要贡献总结如下:
    • 多槽位拍卖的新框架 :论文提出了一种名为NMA的端到端学习框架,能够准确建模全局外部性,并有效平衡设计拍卖机制的关键指标
    • 建模全局外部性的优越方法 :论文采用精心设计的神经网络来建模每个分配的列表级信息和拍卖中的公共信息,大大提高了全局外部性建模的有效性和预测值的准确性
    • 平衡收入和社会福利的有效方法 :论文设计了社会福利最大化的辅助损失,能够有效平衡平台收入和社会福利
    • 详细的工业实践经验 :论文成功将NMA部署在美团外卖平台上。离线模拟和在线A/B实验的结果表明,与GSP、DNA、VCG和WVCG相比,NMA在点击率和平台收入方面带来了显著提升

相关工作(论文直译)

  • 论文中的外部性建模指的是同时考虑位置依赖的外部性和广告依赖的外部性。换句话说,用户是否点击广告不仅依赖于广告本身,还依赖于广告的展示位置和拍卖中的上下文。大多数经典拍卖机制(如GSP和uGSP)假设用户点击仅依赖于广告本身。因此,它们缺乏对外部性的建模,导致性能不佳
  • 局部外部性建模 :最近,学术界和工业界越来越意识到外部性建模的重要性,并尝试建模局部外部性。例如,阿里巴巴提出的Deep GSP和DNA将拍卖机制建模为深度神经网络,其中来自真实系统的反馈是端到端学习的奖励。DNA中使用的候选广告的集合级信息可以被视为对局部广告依赖外部性的考虑。然而,DNA忽略了广告的顺序和展示位置,仍然不够优化。此外,一些研究人员设计了额外的深度神经网络来建模外部性,并基于经典拍卖机制(如GSP和VCG)完成分配和支付。例如,Huang等人提出了深度位置交互网络(DPIN)来建模美团上的位置依赖外部性,它预测每个广告在每个位置的点击率,并基于GSP将多槽位拍卖分为多轮单槽位拍卖。然而,DPIN没有考虑广告依赖的外部性。百度应用的用户浏览模型(UBM)和级联模型考虑了位置依赖的外部性和广告依赖的外部性。但它们仅建模了前序广告对后续广告的影响,忽略了后续广告对前序广告的影响
  • 全局外部性建模 :VCG通过社会福利评估所有候选分配,并提供了全局外部性建模的可能性。在VCG中,具有最大社会福利的分配获胜,并且获胜分配中的每个广告都因其导致的社会福利下降而被收费。与GSP相比,VCG导致平台收入较低,这阻碍了其在工业中的应用。WVCG与级联模型被提出以解决这些问题。在WVCG中,每个分配的社会福利通过参数线性加权以实现更高的收入。然而,Jeziorski和Segal发现,当用户浏览方式不是从上到下时,级联模型无法建模全局外部性。此外,WVCG通过多臂赌博机(MAB)求解参数,参数求解的高复杂性使其难以在工业场景中实践。最近,自动化机制设计(AMD)方法(如虚拟估值组合拍卖(VVCA)和仿射最大化拍卖(AMA))被提出,通过社会福利的仿射变换来提高拍卖者收入。但它们与WVCG在参数求解和社会福利下降方面存在相同的问题。因此,论文使用代表性的VCG和WVCG进行比较,不再讨论其他类似方法(如VVCA和AMA)
  • 需要注意的是,论文未讨论和比较一些在线广告拍卖机制(如两阶段拍卖、DPIN、UBM和级联模型),因为它们适用于不同的应用场景

问题建模

多槽位拍卖场景

  • 电子商务广告中典型的多槽位拍卖场景中,形式上,当用户发起页面浏览请求时,电子商务平台向用户展示 \(J\) 个item,其中包含 \(K(K\leq J)\) 个广告。 \(N\) 个广告主竞争 \(K(K\leq N)\) 个广告位,每个广告主 \(a_{i}\) 根据私有信息(如PCTR等)提交一个出价 \(b_{i}\) 。论文通过 \(\mathcal{M}(\mathcal{R},\mathcal{P})\) 表示拍卖机制。 \(\mathcal{R}\) 是广告分配方案,用于从 \(N\) 个候选广告主中选择 \(K\) 个获胜广告,并按顺序展示在相应的 \(K\) 个固定广告位上。 \(\mathcal{P}\) 是支付规则,用于计算获胜广告的支付,并经过精心设计以保证拍卖机制的经济属性和收入

问题公式化建模

  • 在多槽位拍卖中,论文将广告集合表示为 \(\mathcal{A}={a_{1},\ldots,a_{N}}\) ,广告位集合表示为 \(\mathcal{K}={1,\ldots,K}\) 。然后,分配 \(\theta\) 定义为从 \(N\) 个候选中选择 \(K\) 个广告并按顺序放置在 \(K\) 个广告位上。给定广告主的出价和预测的点击率,论文的目标是设计具有外部性的多槽位拍卖机制 \(\mathcal{M}(\mathcal{R},\mathcal{P})\) ,以在基本假设下最大化平台收入并减少社会福利的下降,如下所示:
    $$
    \begin{align}
    \underset{\mathcal{M}}{\text{maximize}} &\mathbb{E}_{\theta\in\Theta}[\sum_{a_{j}\in\text{ads}(\theta)}p(\theta,a_{j})\cdot\hat{q}(\theta,a_{j})],\\
    \text{s.t.}\quad &\textit{Incentive Compatibility (IC) constraint,}\\
    &\textit{Individual Rationality (IR) constraint,}\\
    &\textit{Social Welfare (SW) constraint,}
    \end{align}
    $$
    • 其中 \(\Theta\) 是所有可能分配的集合, \(\theta^{*}\) 是最佳分配, \(\text{ads}(\theta)\) 是分配 \(\theta\) 中的广告子集, \(p(\theta,a_{j})\) 是分配 \(\theta\) 中广告 \(a_{j}\) 的支付, \(\hat{q}(\theta,a_{j})\) 是分配 \(\theta\) 中广告 \(a_{j}\) 的预测点击率
    • IC和IR约束保证了广告主会如实报告出价,并且不会为其分配支付超过其最大愿意支付的价格。社会福利是在线广告的关键指标,因为它衡量了广告主和用户匹配的效率,也是广告平台总收入的上限。SW约束定义如下:
      $$
      1-\frac{\textit{SW}(\theta^{*},\mathbf{b})}{\textit{SW}^{*}}<\varepsilon,
      $$
      • 其中 \(\textit{SW}(\theta^{*},\mathbf{b})\) 是最佳分配 \(\theta^{*}\) 的社会福利, \(\textit{SW}^{*}\) 是 \(\Theta\) 中的最大社会福利, \(\varepsilon\) 是根据业务场景制定的社会福利下降阈值
  • \(\mathcal{M}(\mathcal{R},\mathcal{P})\) 中的分配方案和支付规则如下:
    • 分配方案 \(\mathcal{R}:\times_{a_{j}\in\mathcal{A}}\mathcal{V}_{j}\longrightarrow\Theta\)
    • 每个广告的支付规则 \(\mathcal{P}:\times_{a_{j}\in\mathcal{A}}\mathcal{B}_{j}\longrightarrow\mathbb{R }^{+}\),
    • 其中 \(\mathcal{V}_{j}\) 是广告 \(a_{j}\) 的可能价值集合,\(\mathcal{B}_{j}\) 是广告 \(a_{j}\) 的可能出价集合。具体来说,论文将广告 \(a_{i}\) 的实际点击价值表示为 \(v_{i}\),广告 \(a_{j}\) 的提交点击价值表示为 \(b_{j}\)
  • 如果拍卖机制是激励相容的(IC),那么每个广告主如实揭示其最大愿意支付价格是最有利的,即 \(b_{j}=v_{j}\)。如果拍卖机制是个体理性的(IR),那么广告主 \(a_{j}\) 的支付金额不会超过其报告的价值,即如果广告 \(a_{j}\) 被展示并点击,则 \(p(\theta,a_{j})\lt b_{j}\);否则不支付任何费用。有了这两个属性,广告主不需要花费精力计算出价策略,并且可以无风险地参与拍卖。在线平台也能获得真实可靠的广告主价值。由于论文遵循了 WVCG 的理论基础,WVCG 已被证明是 IC 和 IR 的 [Kumar et al., 2019],因此论文用 \(b_{i}\) 表示第 \(i\) 个广告主的实际点击价值
  • 为了清晰起见,论文在表 1 中列出了论文中使用的关键符号

NMA拍卖方案

  • 整体方案图:
    • 如图2所示,NMA将所有候选广告列表(即每个广告列表代表一个分配 \(\theta\) )和三种类型的公共信息作为输入,并使用三个模块来选择获胜广告列表
      • 上下文感知列表预测模块(CLPM):CLPM建模每个广告列表的位置依赖外部性和广告依赖外部性,并根据请求的公共信息和广告列表的上下文信息预测每个广告的列表级pCTR
      • 列表深度排序模块(LDRM):LDRM将拍卖机制与深度学习相结合,并使用子网络建模每个广告列表的信息,旨在提高排序公式的表达能力,同时保证IC和IR属性
      • 列表可微分排序模块(LDSM):LDSM对拍卖中的排序操作进行连续松弛,并输出一个行随机的置换矩阵。我们可以使用这个行随机置换矩阵来表达预期收入,并端到端学习最优列表
      • 其他辅助损失:社会福利最大化的辅助损失,以满足社会福利约束并减少社会福利的下降

上下文感知列表预测模块

  • 大多数传统的广告拍卖机制使用点级pCTR来计算分配和支付过程中的排序分数。然而,点级pCTR不仅缺乏对拍卖中公共信息的利用,还未能考虑一个列表中广告之间的交互。最近,Liu等人考虑了广告的交互,并提出了一个名为集合编码器的模块来自动建模拍卖中的集合级信息。但它仅建模了局部外部性,因此仍然不够优化。为此,论文提出了上下文感知列表预测模块,以显式建模全局外部性,输出每个广告在列表中的更准确的列表级pCTR
  • CLPM采用参数共享结构处理所有候选广告列表。这里论文以广告列表 \(\theta\) 为例进行说明。如图2所示,CLPM将广告列表 \(\theta\) 和三种类型的公共信息(即请求信息、用户画像和当前请求中的Organic Item)作为输入,并输出列表中每个广告的列表级pCTR。论文首先使用嵌入层从原始输入中提取嵌入。广告列表和Organic Item列表的嵌入矩阵分别表示为 \(\mathbf{E}_{\text{ad}}\in\mathbb{R}^{K\times d}\) 和 \(\mathbf{E}_{\text{oi}}\in\mathbb{R}^{M\times d}\) ,其中 \(K\) 是 \(\theta\) 中的广告数量, \(M\) 是当前请求中Organic Item的数量, \(d\) 是嵌入的维度。同时,用户画像和请求信息的嵌入分别表示为 \(\mathbf{e}^{\text{u}}\) 和 \(\mathbf{e}^{\text{r}}\)
  • 使用自注意力单元(SAU)来建模Organic Item列表的序列信息:
    $$
    \mathbf{H}_{\text{oi}}=\text{Self-Att}(\mathbf{Q}_{\text{oi}},\mathbf{K}_{\text{oi}},\mathbf{V}_{\text{oi}})=\text{soft max}(\frac{\mathbf{Q}_{\text{oi}}\mathbf{K}_{\text{oi}}^{\top}}{\sqrt{d}})\mathbf{V}_{\text{oi}},
    $$
    • 其中 \(\mathbf{Q}_{\text{oi}},\mathbf{K}_{\text{oi}},\mathbf{V}_{\text{oi}}\) 分别表示查询、键和值。这里查询、键和值是从Organic Item的嵌入矩阵线性变换得到的,如下所示:
      $$
      \mathbf{Q}_{\text{oi}}=\mathbf{E}_{\text{oi}}\mathbf{W}_{\text{oi}}^{O}, \mathbf{K}_{\text{oi}}=\mathbf{E}_{\text{oi}}\mathbf{W}_{\text{oi}}^{K}, \mathbf{V}_{\text{oi}}=\mathbf{E}_{\text{oi}}\mathbf{W}_{\text{oi}}^{V}.
      $$
  • 接下来,使用目标注意力单元(TAU)来编码Organic Item与广告列表中每个广告之间的交互:
    $$
    \begin{align}
    \mathbf{h}_{j}^{\text{ad}} &=\text{Tgt-Att}\big(\mathbf{e}_{j}^{\text{ad}},(\mathbf{h}_{i}^{\text{oi}})_{i=1}^{M}\big) \\
    &=\mathbf{e}_{j}^{\text{ad}}\cdot\text{MLP}_{\text{att}}(\mathbf{e}_{j}^{\text{ad}}|\mathbf{h}_{i}^{\text{oi}})+\cdots+\mathbf{e}_{j}^{\text{ad}}\cdot\text{MLP}_{\text{att}}(\mathbf{e}_{j}^{\text{ad}}|\mathbf{h}_{M}^{\text{oi}}),\forall j\in[K],
    \end{align}
    $$
    • 其中 \(|\) 表示连接, \(\mathbf{e}_{j}^{\text{ad}}\) 是广告列表 \(\theta\) 中第 \(j\) 个广告的嵌入,MLP \({}_{\text{att}}\) 是一个多层感知器(MLP),它将广告和Organic Item对的嵌入作为输入并输出一个注意力权重, \(\mathbf{h}_{i}^{\text{oi}}\) 是从前一个单元生成的有序item列表中第 \(i\) 个Organic Item的表示
      $$
      \mathbf{e}^{\text{list}}=\text{MLP}_{\text{list}}\Big{(}(\mathbf{e}_{1}^{\text{ad}}|\mathbf{h}_{1}^{\text{ad}}|\text{CTR}_{1}^{\text{ad}})|\cdots|(\mathbf{e}_{K}^{\text{ad}}|\mathbf{h}_{K}^{\text{ad}}|\text{CTR}_{K}^{\text{ad}})\Big{)},
      $$
  • 然后,将第 \(j\) 个广告的表示与其对应的嵌入和点级pCTR连接起来,作为其最终表示。广告列表 \(\theta\) 中所有广告的表示被输入到一个MLP中,以建模全局外部性:
    $$
    \hat{q}(\theta,a_{j})=\sigma\Big{(}\text{FC}_{j}(\mathbf{e}^{\text{list}}|\mathbf{e}^{u}|\mathbf{e}^{r})\Big{)},\forall j\in[K],
    $$
    • 其中CTR表示点级pCTR, \(\sigma\) 表示sigmoid函数, \(\hat{q}(\theta,a_{j})\) 表示广告列表 \(\theta\) 中第 \(j\) 个广告的列表级pCTR。为了使CLPM更好地收敛,论文基于每个广告的真实反馈提出了CLPM的辅助损失:
      $$
      L_{list}=\sum_{j=1}^{K}\Big{(}-y_{j}^{\text{ad}}\log(\hat{q}(\theta,a_{j}))-(1-y_{j}^{\text{ad}})\log(1-\hat{q}(\theta,a_{j}))\Big{)},
      $$
      • 其中 \(y_{j}^{\text{ad}}\in{0,1}\) 表示用户是否点击了广告列表 \(\theta\) 中的第 \(j\) 个广告。通过CLPM,我们可以有效地建模全局外部性,输出广告列表的列表级pCTR。与点级pCTR相比,列表级pCTR能够建模位置依赖的外部性,并且更准确,这有助于NMA实现更好的性能。需要注意的是,这里论文仅以CTR为例。通过建模全局外部性来提高预测值准确性的CLPM框架可以轻松转移到其他预测问题,如CVR预测、订单价格预测等

列表深度排序模块

  • LDRM拍卖机制与深度学习相结合,以提高排序公式的表达能力,同时保证IC和IR属性。首先,论文提取广告列表中广告的出价、嵌入和列表级pCTR作为输入。根据拍卖理论,论文设计了一个子网络(即 \(\mu\)-Net)来计算每个广告列表的排序分数。 \(\mu\)-Net的输出对应于WVCG中的权重,用作增加收入的加权因子。然而,WVCG的MAB方法在高工业场景中难以优化。因此,论文升级了深度神经网络以进行端到端优化,它具有丰富的表达能力,可以自动优化仿射参数
  • 数学上,论文将 \(\mu\)-Net表示为 \(f_{\mu}(\cdot)\) ,它将每个广告的分配无关特征作为输入以确保IC,并输出相应广告的私有价值:
    $$
    f_{\mu}(a_{j})=\sigma\Big{(}\text{MLP}_{\mu}(\mathbf{e}_{j}^{\text{ad}})\Big{)},\forall j\in[K].
    $$
  • 然后,广告列表 \(\theta\) 的排序分数计算如下:
    $$
    \mathcal{RS}(\theta,\mathbf{b})=\sum_{a_{j}\in\text{ads}(\theta)}f_{\mu}(a_{j})\cdot b_{j}\cdot\hat{q}(\theta,a_{j})
    =\sum_{j=1}^{K}f_{\mu}(a_{j})\cdot b_{j}\cdot\hat{q}(\theta,a_{j}).
    $$
  • 最佳广告列表 \(\theta^{*}\) 的支付规则为:
    $$
    p(\theta,a_{j})=\frac{1}{\int_{\Omega}(a_{j})\cdot\hat{q}(\theta,a_{j})}\left[RS(\theta^{*}_{-j},\mathbf{b}_{-j})-RS_{-j}(\theta^{*},\mathbf{b})\right], \forall j\in[K],
    $$
    • 其中 \(a_{j}\in\text{ads}(\theta^{*})\) 且 \(\theta^{*}_{-j}\) 是当 \(a_{j}\) 不存在时的最佳广告列表
  • 显然,给定支付规则,每个广告的支付低于其出价,这保证了NMA的IR。广告列表 \(\theta\) 的预期收入计算如下:
    $$
    r(\theta)=\sum_{j=1}^{K}\hat{q}(\theta,a_{j})\cdot p(\theta,a_{j}).
    $$
  • 为了研究此问题对IC属性的影响,论文在第5.2.1节中进行了综合实验,以计算NMA的数据驱动IC指标。论文将NMA在复杂拍卖场景中的严格IC保留为未来工作的一个有趣开放问题

列表可微分排序模块

  • LDRM可以有效地计算不同广告列表的排序分数,并选择最佳广告列表进行支付。然而,将分配和支付置于模型学习之外(即作为不可知环境)在某种程度上不适合深度学习。也就是说,分配和支付的过程(实际上是排序操作)本身是不可微分的。Liu等人提出了一个可微分排序引擎来解决这个问题。但在基于VCG的拍卖中,论文对不同的广告列表进行排序,而不是对广告进行排序,这使得之前的可微分排序解决方案在论文的场景中不适用。为此,论文提出了列表可微分排序模块,它将可微分排序从点级广告排序升级到列表级广告列表排序,使得复杂的拍卖机制可以端到端训练
  • 给定集合 \(\text{RS}=\left[\text{RS}(\theta_{1},\mathbf{b}),\text{RS}(\theta_{2},\mathbf{b}),\cdots,\text{RS}(\theta_{N_{L}},\mathbf{b})\right]^{T}\) ,论文将argsort操作符定义为从 \(N_{L}\) 维实向量 \(\text{RS}\in\mathbb{R}^{\tilde{N}_{L}}\) 到 \(N_{L}\) 个广告列表的排列的映射,其中置换矩阵 \(M_{rs}\) 表示为:
    $$
    M_{rs}[j,i]=\begin{cases}1&\text{If }i=\text{argsort}(\text{RS})\lfloor j\rfloor\\
    0&\text{Otherwise}\end{cases},
    $$
    • 其中 \(M_{rs}[j,i]\) 表示 \(\text{RS}(\theta_{i},\mathbf{b})\) 是否是RS中广告列表的第 \(j\) 大排序分数。结果来自[15]显示了恒等式:
      $$
      M_{rs}[j,i]=\begin{cases}1&\text{If }i=\text{argmax}(c_{j})\\
      0&\text{Otherwise}\end{cases},
      $$
  • 其中 \(c_{j}=(N_{L}+1-2j);\text{RS}-\text{A}_{\text{RS}}\mathbf{I},\) \(\text{A}_{\text{RS}}[m,n]\) 表示元素的绝对成对差异, \(\mathbf{I}\) 表示全1列向量。根据之前的工作[15, 25],论文将Eq. (14)中的argmax操作符松弛如下:
    $$
    \hat{M}_{rs}[j,:]=\text{softmax}(\frac{c_{j}}{r}),
    $$
    • 其中 \(r\) 是温度参数。直观上, \(M_{rs}\) 的第 \(j\) 行可以解释为在所有广告列表上获得第 \(j\) 个最佳广告列表的选择概率
  • 论文将由Eq. (12)计算的所有广告列表的预期收入表示为 \(\text{R}=\left[r(\theta_{1}),r(\theta_{2}),…,r(\theta_{N_{L}})\right]^{T}\) ,然后多槽位拍卖的端到端学习问题可以表述为最小化前1预期收入的总和:
    $$
    L_{tgt}=-\hat{M}_{rs}[1,:]\cdot\text{R}.
    $$

社会福利最大化辅助损失

  • 如Eq. (16)所述,广告收入仅与获胜广告列表相关,这使得端到端过程难以学习,并导致社会福利下降。因此,论文设计了一个社会福利最大化的辅助损失,以加速学习过程并减少社会福利的下降
  • 具体来说,广告列表 \(\theta\) 的社会福利定义为:
    $$
    SW(\theta,\mathbf{b})=\sum_{j=1}^{K}b_{j}\cdot\hat{q}(\theta,a_{j}).
    $$
    • 请注意,论文在Eq 17中有 \(v_{j}=b_{j}\) 。由于论文遵循WVCG的理论基础,它被证明是IC的
  • 显然,具有最大社会福利的广告列表是VCG的结果,其中 \(f_{p}(\cdot)=1\) 。这里论文首先形成一个置换矩阵 \(M_{y}\) ,它通过排序所有广告列表的社会福利来计算。然后,论文使用真实置换矩阵和预测的行随机置换矩阵之间的行级交叉熵(CE)来构建社会福利最大化辅助损失:
    $$
    L_{ce}=\frac{1}{N_{L}}\sum_{k=1}^{N_{L}}\sum_{j=1}^{N_{L}}\mathbb{I}(M_{y}[k,j]=1)\log\hat{M}_{rs}[k,:].
    $$
  • 社会福利最大化辅助损失可以帮助预测的行随机置换矩阵 \(\hat{M}_{rs}\) 向最大化社会福利的方向收敛,并有效减少社会福利的下降
  • 然后,NMA的最终训练损失为:
    $$
    L=L_{tgt}+\alpha_{1}L_{ce}+\alpha_{2}L_{list},
    $$
    • 其中 \(\alpha_{1},\alpha_{2}\) 是用于平衡三个损失的系数。我们可以通过调整这两个参数的值来平衡NMA的性能,并确保NMA满足社会福利约束

Experiments

  • 在本节中,论文在公共和工业数据集上进行了广泛的离线实验,并在美团外卖平台上进行了在线A/B测试,旨在回答以下研究问题:
    • RQ1 :与工业平台上广泛使用的拍卖机制相比,NMA在平台收入和社会福利方面的表现如何?
    • RQ2 :不同模块(即CLPM、LDRM、LDSM、社会福利最大化辅助损失)如何影响NMA的性能?
    • RQ3 :不同的关键超参数设置(即 \(\alpha_{1},\alpha_{2}\) )如何影响NMA的性能?

Experiment Setup

数据集
  • 在离线实验中,论文在公共和工业数据集上提供了NMA有效性的经验证据。两个数据集的统计信息总结在表2中,论文详细描述这两个数据集如下:
    • Avito :公共Avito数据集来自avito.ru的用户搜索日志随机样本。每次搜索对应一个包含五个item的搜索页面,其中两个item有标签并被视为展示广告,其他三个被视为Organic Item。对于每个样本,论文构建候选广告集合 \(\mathcal{A}\) ,其中包含用户点击的N-2个item和当前搜索中的2个展示广告,并通过全排列算法生成集合 \(\Theta\) 。公共信息包括用户ID、搜索ID和搜索日期。每个item的特征包括itemID、类别ID和标题。每个广告的出价独立地从0.5到1.5的均匀分布中采样。这里论文使用20150428到20150515的数据作为训练集,20150516到20150520的数据作为测试集,以避免数据泄露
    • Meituan :工业Meituan数据集是在2022年4月期间在美团外卖平台上通过GSP拍卖收集的。每个请求转换的样本包括两部分:特征和标签。特征包括所有候选广告列表的信息和公共信息。这些候选广告列表是通过对展示广告集合进行全排列算法生成的。在一个广告列表中,每个广告的信息包括其出价和稀疏特征(如ID、类别、品牌等)。标签包括最终展示的广告列表、该列表的广告收入以及列表中每个广告的二进制点击标签。根据数据收集的日期,论文将数据集按8:2的比例划分为训练集和测试集
评估指标
  • 论文构建了一个离线模拟系统,以确保离线和在线性能趋势一致。每个实验重复5次,使用不同的随机种子,每个结果以均值±标准差的形式呈现。论文在离线实验和在线A/B测试中考虑了以下指标。对于论文中的所有实验,实验结果都归一化到相同的尺度
    • 点击率(CTR) :CTR = \(\frac{\sum click}{\sum impression}\)
    • 每千次展示收入(RPM) :RPM = \(\frac{\sum click\times payment}{\sum impression}\times 1000\)
    • 每千次展示社会福利(SWPM) :SWPM = \(\frac{\sum click\times bid}{\sum impression}\times 1000\)
    • 社会福利最大化比率(SWMR) :SWMR = \(\frac{\text{SWPM}}{\text{SWPM}^{+}}\times 100%\) ,其中SWPM \({}^{+}\) 是VCG的SWPM。论文优先考虑收入指标,同时也考虑社会福利指标,因为它是收入的上限。尽管VCG具有最高的社会福利,但其收入非常低。在实际工业场景中,社会福利可以在一定范围内减少,以确保最大收入。需要注意的是,由于实际广告收入与平台的隐私相关,论文转换了出价和支付的绝对值,仅显示RPM和SWPM的相对趋势
  • 除了上述指标外,论文还评估了论文设计的多槽位拍卖机制在IC属性上的有效性
超参数
  • 在Avito和Meituan数据集中,论文使用每个PV请求中展示的top- \(K\) 广告(即 \(K\) 槽位拍卖)的设置,并根据业务需求将 \(\epsilon\) 设置为0.05。论文使用网格搜索尝试了NMA中的不同超参数。由于篇幅限制,论文仅展示最佳结果。在Avito数据集中, \(d\) 为8, \(\alpha_{1}\) 为0.2, \(\tau\) 为1, \(\alpha_{2}\) 为0.01,学习率为 \(10^{-3}\) ,优化器为Adam,批量大小为1,024,MLP \({}_{\text{list}}\) 和MLP \({}_{\mu}\) 的隐藏层大小分别为 \((32,16,8)\) 和 \((32,8,1)\) 。在Meituan数据集中, \(d\) 为8, \(\tau\) 为0.1, \(\alpha_{1}\) 为0.4, \(\alpha_{2}\) 为0.3,学习率为 \(10^{-3}\) ,优化器为Adam,批量大小为8,192,MLP \({}_{\text{list}}\) 和MLP \({}_{\mu}\) 的隐藏层大小分别为 \((60,32,10)\) 和 \((32,8,1)\) 。需要注意的是,实验中的广告数量 \(N\) 和Organic Item数量 \(M\) 被截断以简化。因此,在Avito数据集中, \(K\) 为2, \(N\) 为10, \(M\) 为4;在Meituan数据集中, \(K\) 为4, \(N\) 为20, \(M\) 为50。但显然,NMA可以扩展到具有更多广告和Organic Item的场景
基线
  • 论文将NMA与以下四种代表性的拍卖机制进行比较,这些机制在工业广告平台上广泛使用:
    • 广义第二价格拍卖(GSP) :经典GSP中的排序分数简单地是出价乘以pCTR,即有效每千次展示成本(eCPM)。论文表示第 \(i\) 个广告的排序分数为 \(rs_{i}=bid_{i}\times pCTR_{i}\) 。其支付为 \(p_{i}=rs_{i}^{-1}(rs_{i+1}(b+1))\) ,其中 \(rs_{i+1}(b+1)\) 是下一个最高广告主的排序分数, \(rs_{i}^{-1}\) 是 \(r_{i}(\cdot)\) 的反函数
    • 深度神经拍卖(DNA) :DNA是基于GSP的端到端神经拍卖机制。DNA可以使用历史拍卖结果的真实反馈优化多个性能指标。在论文中,论文统一优化eCPM以确保DNA和NMA的公平比较。但值得注意的是,论文的实验结论很容易类比到具有多个性能指标的实验
    • Vickrey-Clarke-Groves(VCG) :具有外部性的VCG使用社会福利评估所有分配。具有最大社会福利的分配获胜,其支付规则为:获胜分配中的每个广告因其导致的社会福利损失而被收费,即没有该广告的最佳分配的社会福利与获胜分配的社会福利之间的差异
    • 加权Vickrey-Clarke-Groves(WVCG) :WVCG通过参数线性加权每个分配的社会福利,并使用MAB求解参数

离线实验

性能比较(RQ1)
  • 论文构建了一个离线模拟系统,以确保离线和在线性能趋势一致。每个离线实验重复5次,使用不同的随机种子,每个结果以均值±标准差的形式呈现。论文在公共和工业数据集上的详细实验结果总结在表3中。与代表性拍卖机制相比,论文从实验结果中得出以下观察:i)直观上,NMA在两种数据集上的所有三个指标上都比DNA和GSP有显著改进。一个合理的解释是,NMA可以有效地建模全局外部性,而DNA仅建模了局部外部性。ii)与VCG相比,NMA在广告收入和社会福利之间有更好的平衡,这意味着NMA在较小的社会福利下降下实现了更高的广告收入。这也表明VCG以广告收入为代价最大化社会福利,这对大多数工业实践来说是不可接受的。iii)显然,WVCG在RPM方面被NMA压倒。这一实验结果验证了NMA强大的表达能力和高效的端到端学习能力
  • 此外,论文还应用IC-R(表示效用最大化者的事后遗憾)来量化NMA的IC。IC-R的较大值表示广告主可以通过操纵出价获得更大的效用。例如,表4中的0.309表示广告主可以通过修改其出价在GFP拍卖中增加约30.9%的效用。具体来说,论文每次在Avito上进行 \(2000\times 10\) 次测试,在Meituan上进行 \(2000\times 25\) 次测试,其中2000是测试拍卖的数量,10(或25)是每次拍卖的广告数量。对于广告 \(a_{i}\) ,论文仅将其出价 \(b_{i}\) 替换为 \(\beta\times b_{i}\) ,其中 \(\beta\in{0.1,0.3,0.5,\cdots,1.9}\) 是乘法扰动因子。该拍卖中其他广告的所有特征和出价保持不变。基于上述设置,论文随机抽样数据并重复实验20次,以观察三种拍卖的IC-R。如表4所示,NMA与VCG具有相同的性能——两者都优于广义第一价格(GFP),这验证了NMA有效地满足了IC约束
消融研究(RQ2)
  • 为了验证不同模块(即CLPM、LDRM、LDSM、社会福利最大化辅助损失)的影响,论文在Meituan数据集上研究了NMA的三个消融变*
    • NMA (-CLPM) :不使用上下文感知列表预测模块,并使用原始点级pCTR计算排序分数。对于具有相同排序分数的分配,论文随机选择一个作为获胜广告列表
    • NMA (-LDRM-LDSM) :同时屏蔽列表深度排序模块和列表可微分排序模块,并使用WVCG计算每个分配的排序分数和支付
    • NMA (-SW Aux Loss) :移除社会福利最大化的辅助损失,即 \(\alpha_{2}=0\)
  • 从表6中的实验结果来看,论文有以下发现:i)没有CLPM的变体表现不如NMA。这一现象证明了论文提出的CLPM可以有效地建模全局外部性,并帮助NMA实现更好的性能。ii)NMA(-LDRM-LDSM)的实验结果在所有三个指标上都比NMA差。这支持了训练升级可以促进性能提升的观点。iii)有和没有社会福利最大化辅助损失的SWPM性能差距明显。这表明辅助损失使论文能够在最大化广告收入的同时减少社会福利的下降
  • 此外,论文还观察了有和没有CLPM的AUC和Logloss指标,以验证CLPM在CTR预测方面的改进。如表5所示,CLPM在Avito和Meituan上分别比原始点级pCTR结果提高了0.006和0.016的AUC,这说明CLPM能够有效地建模全局外部性,并提高预测值的准确性
超参数分析(RQ3)
  • 论文分析了两个超参数的敏感性: \(\alpha_{1}\) 和 \(\alpha_{2}\) 。具体来说, \(\alpha_{1}\) 和 \(\alpha_{2}\) 分别是社会福利最大化辅助损失和CLPM辅助损失的系数。RPM和SWPM的曲线如图3所示,论文有以下发现:i)随着 \(\alpha_{1}\) 的增加,NMA的SWPM增加,但RPM下降。这一现象表明,论文的社会福利最大化辅助损失有助于NMA在广告收入和社会福利之间实现更好的平衡。当 \(\alpha_{1}\) 增加时,论文更关注社会福利。当 \(\alpha_{1}\) 减少时,论文更关注广告收入。ii)在一定范围内增加 \(\alpha_{2}\) 可以提高性能。但如果 \(\alpha_{2}\) 过大,会导致性能下降。一个可能的解释是,CLPM的辅助损失可以在一定范围内有效地引导NMA朝着目标方向学习。但如果辅助任务的权重过大,可能会导致学习方向被该任务主导,从而导致整体性能下降

在线结果

  • 论文将NMA与GSP进行比较,并通过在线A/B测试将两种拍卖机制部署在美团外卖平台上。对于候选广告列表,论文使用全排列算法在线获取所有候选广告列表,超参数 \(K\) 、 \(N\) 、 \(M\) 与离线相同。需要注意的是,在论文的基于位置的服务(LBS)场景中,广告数量 \(N\) 非常少。因此,论文还将NMA扩展到具有大量广告的场景,以验证其可行性,其中论文使用一些列表生成算法来减少时间复杂度并近似生成候选广告列表
  • 论文从2022年5月20日到2022年6月20日(一个月)进行了在线A/B测试,使用了1%的生产流量。在长期观察下,性能稳定。结果发现,CTR、RPM和SWPM分别增加了6.37%、10.88%和6.22% ,这表明NMA可以实现更高的平台收入和社会福利。值得注意的是,离线实验中的增加值为6.97%、11.20%和6.49%。绝对值差异的一些可能原因是数据分布的差异和离线评估中的小误差

结论

  • 一句话总结 :论文提出了具有外部性的神经多槽位拍卖(NMA),旨在为在线广告学习端到端的多槽位拍卖机制,并在减少社会福利下降的同时获得更高的收入
  • 细节简述 :具体来说,论文通过上下文感知列表预测模块有效地建模了全局外部性。论文设计了一个列表深度排序模块,以确保端到端学习中的IC;论文还提出了一个社会福利最大化的辅助损失,以在最大化收入的同时有效减少社会福利的下降
  • 应用情况 :作者已将NMA机制部署在美团外卖平台上。离线实验结果和在线A/B测试表明,NMA显著优于其他现有的拍卖机制基线
  • 一些讨论 :论文中提到,全排列可以替换为列表生成模块 ,如启发式方法,这可以满足工业部署需求(全排列需要搜索的空间大,耗时长),但这可能会对有效性产生影响
  • 未来 :未来需要进一步优化以提高方案线上serving的效率

CA——Optimal-Auction-Design论文阅读

Background

  • 本文是论文Optimal Auction Design, 1981的阅读笔记
  • 本文参考了:Optimal Auction Design 最优拍卖论文笔记, CSDN
  • 《拍卖理论》第五章也有相关证明(表示符号不同,问题定义和推导结果相同)

Introduction

  • Tips:论文的机制也称为 Myerson 拍卖(迈尔森拍卖)机制
  • 论文针对单物品拍卖下,Seller 如何获得最大的收益的问题
    • 单物品拍卖即一个 Seller 有一个物品(Object), 多个竞价者(Bidder)参与拍卖
  • 论文提出一种单物品拍卖下,保证DSIC的收益最大化的机制
    • Tips:单物品拍卖下,二价拍卖是社会福利最大化的DSIC拍卖机制,但不是收益最大化拍卖
    • Tips:单物品拍卖下,假设竞拍者私有估值独立同分布,则带保留价的二价拍卖是等价于Myerson拍卖

Basic Definitions and Assumptions

(本节阐述基本定义和假设)

  • 约定一个Seller 准备出售某个商品 (Object),有 \(n\) 个 Bidders。每个Bidder \(i\) 对该Object有一个估计的价值 \(t_i\) (\(i\) ‘s value estimate),也即其最大可承担的竞价

  • 名词约定:

    • 假设 \(t_i\) 的上下限为 \(a_i, b_i\), 竞拍者 \(i\) 的私有估值分布(value estimate distribute)即出价分布函数为 \(f_i\), \(f_i(t_i) > 0\),而且 \(f_i\) 为一个在区间 \([a_i, b_i]\) 上连续的函数

    • 对应的累计密度函数 \(F_i\) 即: \(F_i(t_i) = \int_{a_i}^{t_i} f_i(s_i)d s_i\) \(F_i(t_i)\) 也是Seller 对竞拍者Bidder \(i\) 的竞价 \(f_i(s_i) \le t_i\) 的估计概率

    • \(T\) 表示Bidders 对估计价值 \(t_i\) 的所有可能组合: \(i [a_1, b_1] \times [a_2, b_2] \times .. \times [a_n, b_n] \)

    • \(T_{-i}\) 表示除去Bidder \(i\) 之外对所有bidders 的估计价值的组合之和 \(T_{-i} = \mathop{\times}\limits_{j \in N, j \neq i}[a_j, b_j] \)

    • 假设所有 \(n\) 个竞价者是相互独立对随机变量,即其联合概率分布为所有 \(f_i(t_i)\) 的乘积 \(f_t = \prod \limits_{j \in N} f_j(t_j)\)

    • 各个竞拍者出价独立的两个主要因素【如何理解?】:

      • 1,偏好不确定,此时竞拍者 \(i\) 了解到对竞拍者 \(j\) 的出价信息不影响 \(i\) 去修改自己的出价,
      • 2,对商品的质量(价值)的估计不确定 (quality uncertainly),此时竞拍者 \(i\) 了解到对竞拍者 \(j\) 的出价信息后会修改自身的出价
    • 假设存在 \(n\) 个出价调整函数 \(e_j\) : \([a_i, b_i]\), \(e_j(t_j)\) 表示其他竞拍者 \(i\) 获知到竞拍者 \(j\) 对商品的价值估计 \(t_j\) 后修改自身出价的调整幅度(注意,这里假设了知道竞拍者 \(j\) 的出价信息后,任何一个非 \(j\) 竞拍者修正自己出价的幅度都是相同的 \(e_j(t_j)\) ),即竞拍者出价变为 \(t_i - e_j(t_j)\) 。一般假设 \(e_j(t_j) = 0\) 即对竞拍者知道其他竞拍者的估值后不影响自己的原始出价。如果 \(i\) 获知了全部 \(t = (t_1,..,t_n)\) 的出价信息后, \(i\) 将修改其对商品的估计价值为(公式 2.7):
      $$
      \begin{align}
      v_i(t) = t_i + \sum \limits_{j \in N, j \neq i}e_j(t_j)
      \end{align}
      $$

      • 相应的,Seller 获得N个竞价者对出价后重新调整其对自身的估价为(公式 2.8):
        $$
        \begin{align}
        v_0(t) = t_0 + \sum \limits_{j \in N}e_j(t_j)
        \end{align}
        $$
      • 一般假设: \(e_j(t_j)\) 为0

小结:

  • \(f(t_i)\) 即竞拍者 \(i\) 对商品的价值估计为 \(t_i\) 的概率分布函数
  • \(v_i(t)\) 即竞拍者 \(i\) 考虑其他竞拍者对商品的价值估计后,修正的价格估计

Feasible Auction Mechanisms

(本节阐述可行性拍卖机制的基本条件)

  • 以直接报价机制(direct revelation mechanisms) 为例展开

  • 给定估计报价 \(t = (t_1,..,t_n)\), 直接报价机制的支出函数outcome functions \((p,x)\),其中 \(p_i(t)\) 即竞拍者 \(i\) 商品竞拍成功的概率, \(x_i(t)\) 即此时 \(i\) 给Seller 的期望付费金额

  • 约定Seller 和所有竞拍者都是中性风险倾向的,对商品有各自的独立的收益函数(utility function),竞拍者 \(i\) 的期望效用函数是 (公式 3.1):

    $$
    \begin{align}
    U_i(p,x,t) = \int_{T_{-i}} \left( v_i(t)p_i(t)-x_i(t) \right) f_{-i}(t_{-i})dt_{-i}
    \end{align}
    $$

    • 其中 \(dt_{-i} = dt_1…dt_{i-1}dt_{t+1}dt_n\)
    • 其中 \(f_{-i}\) 即竞拍者 \(i\) 和 Seller 估计除去 \(i\) 之外的各竞拍者的出价的联合概率分布(独立,独立分布的乘积),之所以不包含自身的出价概率分布函数,是因为假定竞拍者已经按给定的出价 \(t_i\) 以给定的概率 \(p_i\) 获得商品为一确定性事件
    • 解释: 即竞拍者对商品本身估计的价值收益 \(v_i(t)p_i(t)\) - 竞拍者为这个商品付出的成本 \(x_i(t)\) 的累计积分
  • 与之相对应,Seller 对这次竞拍的期望收益为 (公式 3.2):
    $$
    \begin{align}
    U_0(p,x) = \int_{T}\left( v_0(t)\left(1-\sum_{j \in N}p_j(t)\right) + \sum_{j \in N}x_j(t)\right)f(t)dt
    \end{align}
    $$

    • 其中 \(dt_{i} = dt_1…dt_n\)
    • 解释:即庄家不出售商品时,自身对其的价值估计为 \(v_0\),不出售的概率为 \(1-\sum_{j \in N}p_j(t)\),则不出售收益部分 \(v_0(t)\left(1-\sum_{j \in N}p_j(t)\right) \) + 出售商品时从竞拍者处获得的支付收益 \(\sum_{j \in N}x_j(t)\) 的累计
  • 我们的最优化问题目标就是最大化 \(U_0(p,x)\) (定义见:公式3.2),同时对 \((p, x)\) 有一些约束条件:

    • 公式3.3:(概率约束 probability constraints) 由于每次只有一个商品拍卖,所以有 :
      $$
      \begin{align}
      \sum_{j \in N}p_j(t) \le 1 \quad \text{and} \quad p_i(t) \ge 0, \quad \forall i \in N, \forall t \in T
      \end{align}
      $$

    • 公式3.4:(个体理性约束 individual-rationality constraints)由于Seller不能强制竞拍者参加,所以需要保证每个竞拍者参与进来的收益非负才有动力参加,即 :
      $$
      \begin{align}
      U_i(p,x,t_i) \ge 0, \quad \forall i \in N, \forall t_i \in [a_i, b_i]
      \end{align}
      $$

    • 假设竞拍者有隐瞒自己的估计从而期望获得额外收益,这时候应该保证诚实报价的状态是一种纳什均衡状态。假设竞拍者 \(i\) 声称 \(s_i\) 是他的声称估计而 \(t_i\) 是他的真实估价,那么他的期望效益函数为:
      $$
      \begin{align}
      \int_{T_{-i}} \left( v_i(t)p_i(t_{-i}, s_i)-x_i(t_{-i}, s_i) \right) f_{-i}(t_{-i})dt_{-i}
      \end{align}
      $$

    • 说明:竞拍者 \(i\) 获得物品的概率变成受两个因素的影响 \(p_i(t_{-i}, s_i)\),为拍得商品支付的成本 \(x_i\) 也是 \(x_i(t_{-i}, s_i)\)

    • 公式3.5: (激励相容约束 incentive-compatibility constraints)从而,为保证每个竞拍者都没有动力隐瞒报价,需要满足如下的激励相容的条件(隐瞒后的期望收益更小):
      $$
      \begin{align}
      U_i(p,x,t_i) \ge \int_{T_{-i}} \left( v_i(t)p_i(t_{-i}, s_i)-x_i(t_{-i}, s_i) \right) f_{-i}(t_{-i})dt_{-i}, \quad \forall i \in N, \forall t_i \in [a_i, b_i], \forall s_i \in [a_i, b_i]
      \end{align}
      $$

    • 论文称满足以上3个条件的拍卖机制是可行的feasible。that is, if the seller plans to allocate the Object according to p and to demand monetary payments from bidders according to x, then the scheme can be implemented, with all bidders willing to participate honesty.

  • 在一个一般性的拍卖中,每个Bidder有一些候选策略 \(\Theta_i\), 以及其对应的收益函数:
    $$
    \begin{align}
    \hat{p}: \Theta_1 \times … \times \Theta_n \rightarrow \mathbb{R}^n \quad \hat{x}: \Theta_1 \times … \times \Theta_n \rightarrow \mathbb{R}^n
    \end{align}
    $$

  • 一个拍卖机制auction mechanism 涉及到各个竞拍者使用的一系列strategic plans 参与游戏中。a strategic plan即一个 \([a_i, b_i] \rightarrow \Theta_i\) 的规则函数, \(\Theta_i\) 即当竞拍者对商品的估价是 \(t_i\) 时采取的竞拍策略。Direct revelation mechanisms直接报价机制即 \(\Theta_i = t_i\) 。

  • 定理1:给定任何的可行拍卖机制,总存在一个等价的可行的直接报价机制,可以给Seller和所有竞拍者带来与之相同的收益

小结:可行拍卖的3个条件:竞拍成功的概率非负、竞拍者的效用函数非负(挣的比花的多)、激励相容(鼓励说真话)

Analysis of the problem

*(本节展开拍卖机制的更多属性,确定具体的竞拍标准和计费标准) *

  • 定义Bidder \(i\) 在 \((p,x)\) 的拍卖机制下,当 \(i\) 的估价是 \(t_i\) 时竞拍成功的条件概率为 (公式4.1):
    $$
    \begin{align}
    Q_i(p,t_i) = \int_{T_{-i}}p_i(t)f_{-i}(t_{-i})dt_{-i}
    \end{align}
    $$
    • 如何理解?
  • 此处省略许多推导…

Optimal auctions in the regular case

(本节给出正则问题下的最优拍卖机制)

  • 对任意竞拍者 \(i\),定义新的变量(其他地方也称为虚拟估值):
    $$
    \begin{align}
    c_i(t_i) = t_i -e_i(t_i) - \frac{1-F_i(t_i)}{f_i(t_i)}
    \end{align}
    $$
    • 如果对所有竞拍者 \(i\),均有 \(c_i(t_i)\) 是 \(t_i\) 的严格单调递增函数,则称原始问题为正则问题
    • 算法博弈论中也称满足 \(v - \frac{1-F(v)}{f(v)}\) 是关于 \(v\) 的非减函数的分布 \(F\) 为正则分布。在实际应用中,一般假设 \(e_j(t_j) = 0\) 。 \(e_j(t_j)\) 表示其他竞拍者 \(i\) 获知到竞拍者 \(j\) 对商品的价值估计 \(t_j\) 后修改自身出价的调整幅度(注意,这里假设了知道竞拍者 \(j\) 的出价信息后,任何一个非 \(j\) 竞拍者修正自己出价的幅度都是相同的 \(e_j(t_j)\) ),即竞拍者出价变为 \(t_i - e_j(t_j)\) 。一般假设 \(e_j(t_j) = 0\) 即对竞拍者知道其他竞拍者的估值后不影响自己的原始出价
    • 正则的分布包括:正太分布(normal distribution),对数正太分布(lognormal distribution),均匀分布(uniform distribution),指数分布(exponential distribution)
      • 对数正态分布的介绍可参考对数正态分布(Log-Normal Distribution)
      • 指数分布的介绍可参考指数分布(定义、期望、方差)
    • 非正则的分布包括:多峰分布和长尾分布
  • 正则问题的最优拍卖机制对应的分配规则为:
    $$
    \begin{align}
    p_i(t) > 0 \quad \text{implies} \quad c_i(t_i) = \max \limits_{j \ in N}\left(c_j(t_j) \right) \ge t_0
    \end{align}
    $$
    • 个人理解:上述公式包含下面几个逻辑:
      • 分配函数:将商品卖给 \(c_i(t_i)\) 最大的人,实际实现时可以采用按照 \(c_i(t_i)\) 排序的方式实现
        • 对应到广告中,则可以用 \( RankScore_i = c_i(bid_i^{cpc}) * CTR \) 排序
        • 考虑GMV时,也可以扩展为用 \(RankScore_{i} = c_i(bid_i^{cpc}) * CTR + k \cdot GMV\) 排序
      • 保留价:当所有人的虚拟估值都低于Seller 对商家的估值 \(t_0\) 时,流拍。在广告系统中,广告位不卖出去一般没有收益(忽略不出广告带来的用户体验提升),即估值为0,也就是 \(t_0=0\),此时保留价一般定义为,对任意竞拍者 \(i\),有 \(Bid_{reserve} = c_i^{-1}(t_0) = c_i^{-1}(0)\)
  • 正则问题的最优拍卖机制对应的支付规则为:
    $$
    \begin{align}
    x_i(t) = p_i(t)v_i(t) - \int_{a_i}^{t_i}p_i(t_{-i}, s_i)ds_i
    \end{align}
    $$
    • 其中 \(v_i(t) = t_i + \sum \limits_{j \in N, j \neq i}e_j(t_j)\)
    • 个人理解:上述公式包含下面几个逻辑:
      • 直观解释支付规则:竞拍者 \(i\) 的支付价格为其对商品估值(修改后的估值)减去 其出价较低时累计概率和【如何理解减去累计概率和是表达声明,是不是写错了?】
    • 由于 \(v_i(t) = t_i + \sum \limits_{j \in N, j \neq i}e_j(t_j)\),原始支付规则可进一步转化为:
      $$
      \begin{align}
      x_i(t) = p_i(t)\left( t_i + \sum \limits_{j \in N, j \neq i}e_j(t_j)\right) - \int_{a_i}^{t_i}p_i(t_{-i}, s_i)ds_i
      \end{align}
      $$
  • 进一步定义如下新变量 \(z_i(t_{-i})\) :
    $$
    \begin{align}
    z_i(t_{-i}) = \inf\{s_i|c_i(s_i) \ge t_0 \quad \text{and} \quad c_i(s_i) \ge c_j(t_j), \forall j \neq i\}.
    \end{align}
    $$
    • 个人对上述新变量 \(z_i(t_{-i})\) 的理解:
      • \(z_i(t_{-i})\) 是一个满足下列条件的 \(s_i\) 的最小值:
        • 满足 \(s_i\) 的虚拟估值 \(c_i(s_i)\) 大于Seller对商品估值 \(t_0\)
        • 满足 \(s_i\) 的虚拟估值 \(c_i(s_i)\) 大于等于其他所有竞拍者的真实估值对应虚拟估值 \(c_j(t_j)\)
      • 论文原文: \(z_i(t_{-i})\) is the infimum of all winning bids for i against \(t_{-i}\) . (\(z_i(t_{-i})\) 是 竞拍者 \(i\) 对 \(t_{-i}\) 的所有出价的下确界值)
      • \(z_i(t_{-i})\) 本质上是除竞价者 \(i\) 以外的 \(c_j(t_j)\) 最高的值 \(c_{j^*}(t_{j^*}) = \max \limits_{j \neq i} c_j(t_j)\) 对应的逆函数值 \(c_i^{-1}(c_{j^*}(t_{j^*}))\) 和 \(c_i(t_0)\) 的最大值
      • 也就是说,对于任意的竞价者 \(i\), \(z_i(t_{-i})\) 是在其他商家出价为 \(t_{-i}\) 时, \(i\) 获胜的最低出价,也是其获胜后的计费价格
    • 当修正函数为0(即 \(e_i(t_i) = 0\) ),则可以得到:
      $$
      \begin{align}
      x_i(t) &= z_i(t_{-i}) \\
      &= \max \left \{c_i^{-1}(t_0), \max \limits_{j \neq i} c_i^{-1}(c_j(t_j))\right\} \\
      &= c_i^{-1}\left(\max\left\{t_0, \max \limits_{j \neq i} c_j(t_j)\right\}\right) \\
      \end{align}
      $$
      • 实际使用时,若 \(RankScore_{i} = c_i(bid_i^{cpc}) * CTR + k \cdot GMV\),则是:
        $$
        \begin{align}
        x_i(t) &= z_i(t_{-i}) \\
        &= c_i^{-1}\left(\max \left\{t_0, \frac{RankScore_{next} - k \cdot GMV}{CTR}\right\}\right)
        \end{align}
        $$
    • 进一步地,如果问题是正则的,且是对称的(即所有竞拍者的估值分布是一样的)那么有:
      $$
      \begin{align}
      x_i(t) =z_i(t_{-i}) = \max \left \{c_i^{-1}(t_0), \max \limits_{j \neq i} t_j \right \}.
      \end{align}
      $$
      • 公式理解:
        • 当所有竞拍者的估值分布一致时(即 \(\forall i,j\),有 \(F_i = F_j = F\) ),此时 \(c_i = c_j = c\) 成立, \(c_i^{-1}(c_j(t_j)) = c^{-1}(c(t_j)) = t_j\) 成立
        • 此时表示,如果问题是正则且对称的,那么带保留价的二价拍卖(\(Bid_{reserve} = c_i^{-1}(t_0)\))就是最优机制
  • 分配规则也可表示为:
    $$
    \begin{align}
    p_i(t_{-i},s)=
    \begin{cases}
    0& 1 \ if \ s_i \gt z_i(t_{-i}), \\
    1& 0 \ if \ s_i \lt z_i(t_{-i}).
    \end{cases}
    \end{align}
    $$
    • 分配规则的理解:
      • 如果一个竞拍者 \(i\) 的出价大于除他以外的所有竞拍者的虚拟估值最大值的逆且大于Seller对商品估值的逆,则获胜
      • 更直观的理解:虚拟估值 \(c_i(s_i)\) 最高的竞拍者获胜,若最高虚拟估值低于Seller对商品估值( \(t_0\) ),则流拍
  • 计费规则也可表示为:
    $$
    \begin{align}
    x_i(t)=
    \begin{cases}
    0& z_i(t_{-i}) + \sum \limits_{j \in N, j \neq i}e_j(t_j) &\ if \ p_i(t)=1, \\
    1& 0 &\ if \ p_i(t)=0.
    \end{cases}
    \end{align}
    $$
    • 其中 \(\sum \limits_{j \in N, j \neq i}e_j(t_j)\) 通常为0,故更简洁的计费规则形式为:
      $$
      \begin{align}
      x_i(t)=
      \begin{cases}
      0& z_i(t_{-i}) &\ if \ p_i(t)=1, \\
      1& 0 &\ if \ p_i(t)=0.
      \end{cases}
      \end{align}
      $$

小结

  • Myerson拍卖问题的建模为:
    $$
    \begin{align}
    \max U_0(p,x) &= \int_{T}\left( v_0(t)\left(1-\sum_{j \in N}p_j(t)\right) + \sum_{j \in N}x_j(t)\right)f(t)dt \\
    s.t. \sum_{j \in N}p_j(t) \le 1 \quad \text{and} \quad p_i(t) \ge 0 &, \quad \forall i \in N, \forall t \in T \\
    U_i(p,x,t_i) \ge 0 &, \quad \forall i \in N, \forall t_i \in [a_i, b_i] \\
    U_i(p,x,t_i) \ge \int_{T_{-i}} \left( v_i(t)p_i(t_{-i}, s_i)-x_i(t_{-i}, s_i) \right) f_{-i}(t_{-i})dt_{-i} &, \quad \forall i \in N, \forall t_i \in [a_i, b_i], \forall s_i \in [a_i, b_i]
    \end{align}
    $$

  • 若以上问题为正则问题(即当对任意的竞拍者 \(i\),对商品的估值分布 \(F_i\) 是正则函数)时,有最优拍卖机制 \((p,x)\) 为:

    • 原始形式:

      • 分配规则 \(p\) :
        • 按照 \(RankScore_i = c_i(t_i) = t_i - \frac{1-F_i(t_i)}{f_i(t_i)}\) 对竞拍者进行排序,取 \(RankScore_i\) 最高的竞拍者 \(RankScore_i^*\)
        • 若 \(RankScore_i^*\ \ge t_0\) (等价于 \(t_{i*} \ge c_{i^*}^{-1}(t_0)\) ),则竞拍者 \(i^*\) 获胜,否则流拍
      • 支付规则 \(x\) :
        $$
        \begin{align}
        x_i(t) &= z_i(t_{-i}) \\
        &=c_i^{-1}\left(\max\left\{t_0, \max \limits_{j \neq i} c_j(t_j)\right\}\right)
        \end{align}
        $$
    • 在真实广告系统中,往往需要考虑 \(GMV\) 等指标,此时一般可定义 \(RankScore_{i} = c_i(bid_i^{cpc}) * CTR + k \cdot GMV\),则

      • 分配规则是:
        • 按照 \(RankScore_{i} = c_i(bid_i^{cpc}) * CTR + k \cdot GMV\) 对竞拍者进行排序
        • 取 \(RankScore_i\) 最高的竞拍者 \(i^*\),其对应的排序分数为 \(RankScore_i^*\)
        • 若 \(\frac{RankScore_{i^*} - k \cdot GMV}{CTR} \ge t_0\) (等价于 \(bid_{i^*}^{cpc} \ge c_{i^*}^{-1}(t_0)\) ),则竞拍者 \(i^*\) 获胜,否则流拍
          • 注意:当竞拍者的出价分布不同时,其对应的保留价也不同,一般广告中实现时会考虑数据稀疏问题等,将同以区域(一般为蜂窝粒度)商家出价分布假定为独立同分布的,即同一区域内所有商家保留价相同
      • 支付规则是:
        $$
        \begin{align}
        x_i(t) &= z_i(t_{-i}) \\
        &= c_i^{-1}\left(\max \left\{t_0, \frac{RankScore_{next} - k \cdot GMV}{CTR}\right\}\right)
        \end{align}
        $$

Optimal auctions in the general case

(本节给出一般情况下的最优拍卖机制)

The independence assumption

Implementation

其他讨论

  • 缺点:
    • 无法避免Bidders串谋调低价格
    • 可能出现Seller雇佣托儿太高价格(即保留价)【Seller没有动力吧】
    • 无法避免同一个Bidder用多个身份竞拍【Bidder没有动力吧】

CA——Truthful-Auctions-for-Automated-Bidding-in-Online-Advertising

本文研究智能出价下的Truthful拍卖

  • 参考链接:
    • 论文原文:Truthful Auctions for Automated Bidding in Online Advertising, IJCAI 2023, Alibaba
    • 官方博客:自动出价下机制设计系列 (二) : 面向私有约束的激励兼容机制设计

目标及思路

  • 研究自动出价下的 Truthful 拍卖机制(即:也称为激励兼容(incentive-compatible)或说真话(truth-telling)的拍卖机制)
    • Truthful拍卖机制需要同时满足:激励兼容性 和 个体理性
      • 激励兼容性(Incentive Compatibility, IC) :竞拍者通过报告其真实估价获得的效用不低于任何其他策略下所能获得的效用。这意味着对于竞拍者来说,诚实是最好的策略
      • 个体理性(Individual Rationality, IR) :如果竞拍者赢得拍卖,他支付的价格不会超过他对该物品的真实估价。因此,他的净收益(即他的估价减去支付的价格)将是非负的。即使竞拍者没有赢得拍卖,由于他没有支付任何费用,他的净收益也是零或正数
  • 设定场景:商家设定ROI + 预算约束 (传统的拍卖模型不再适合这种新的广告范式)
  • 分配:采用排名分数作为确定 item 分配的标准,这与广义第二价格(GSP)拍卖的思想相似
  • 计费:在保证私人约束的真实性方面,设计了一个关键ROI ,即在不超出预算约束的情况下能够赢得最多 item 的最大ROI,这等价于将预算转换为与ROI相同的维度,从而允许论文找到一个紧约束,限制竞拍者获得额外效用,并利用该紧约束防止虚假报告

场景定义及讨论

  • 自动出价(auto-bidding):广告主向平台提交其高层优化目标和约束条件,然后由机器学习算法驱动的出价代理代表广告主在每次广告拍卖中做出详细的出价决策。借助自动出价工具,广告主可以在高层面上根据其财务约束优化其整体广告目标
  • 传统的拍卖模型 :在传统模型中,广告主对 item (即广告展示)具有私人价值,并在每次拍卖中进行相应的策略性出价
  • 自动出价场景的拍卖模型 :自动出价中,广告主的私人信息实际上是其整个广告活动的约束条件 ,公开信息是用户的潜在行为(如点击和转化 ,这些行为可以被视为广告主对 item 的公开价值,因为此时通过预估模型可以将CTR和CVR预估出来);机制设计的目标是找设计一种新的广告拍卖模型,以激励广告主在** item 价值公开的情况下如实揭示其高层私人约束**
  • 论文自动出价场景定义 :广告主提交预算和投资回报率(ROI)要求作为其 (私人)约束 ,并旨在最大化在一定时期内从多次拍卖中获得的累积价值
  • 论文主要内容:
    • 提出了一种自动出价(即价值最大化的竞拍者具有私人约束作为私人信息,而 item 的价值是公开的(即CTR,CVR等公开))下的拍卖模型
    • 研究了在公开价值设置下,预算和ROI这两个私人约束的真实性条件,为Truthful拍卖的分配和支付的可行空间提供了完整的特征描述
    • 基于推导出的真实性条件,论文设计了一类用于自动出价的真实广告拍卖机制
    • 实验评估拍卖机制在社会福利和收入方面的有效性

整体分析

在线广告系统

  • 在线广告拍卖系统的工作过程如图1所示

  • 从广告主的角度来看,它可以描述如下:

    • 广告主在选择优化目标(例如,最大化点击或转化)并设置成本约束(例如,每日预算、目标投资回报率(ROI)和每次点击的最大成本)。广告主要求其实现的ROI(定义为获得的价值与支付的比率)高于其目标ROI
    • 根据广告主的配置,自动出价代理代表广告主在多次拍卖中做出出价决策。当每次用户展示出现时,自动出价代理参加广告拍卖以竞争广告展示机会
    • 自动出价代理会预测每个请求下,用户展示为广告主带来的价值(点击率或转化率),并在考虑成本约束的情况下为每次展示/点击出价
    • 在多次拍卖中,广告主可以查看累积的拍卖结果,包括花费的预算、获得的展示、点击、转化和平均成本。广告主可以进一步调整其自动出价设置以实现其广告目标
  • 自动出价服务的在线广告与传统在线广告的不同:

    • 广告主仅在出价配置中报告优化目标和约束 ,而不是每次拍卖的细粒度出价
    • 广告主仅评估多次拍卖的累积长期表现和成本 ,而不是每次单独拍卖的结果
    • 由于在线平台可以访问广告中产生的所有数据,因此可以合理地声称特定广告主对请求位置展示/点击的货币价值可以精确计算(公开信息)
  • 由于广告主和在线平台的行为模式在自动出价中发生了显著变化,论文需要研究自动出价下的新机制

  • 注:接下来论文主要研究展示计费的场景

拍卖模型

  • 拍卖场景定义:

    • 有 \(n\) 个广告主在 \(m\) 个时间段内竞争 \(m\) 个 item(用户展示),每个时间段只出现一个 item
    • 广告主是价值最大化(value-maximizing)的竞拍者,他们在支付不超出其财务约束的情况下关心其分配到的展示的累积价值
    • 每个广告主 \(i\) 具有预算( \(B_{i}\geq 0\) )和ROI( \(R_{i}>0\) )约束,这些是私人信息(在机制设计文献中也称为类型 \(t_{i}=(B_{i},R_{i})\) )
    • 所有广告主的类型概况为 \(\mathbf{t}=(t_{i})_{i=1}^{n}\) ,类型概况的空间为 \(\mathcal{T}=\prod_{i=1}^{n}\mathcal{T}_{i}\) ,其中 \(\mathbf{t}\in\mathcal{T}\) 且 \(\mathcal{T}_{i}={\cal B}_{i}\times{\cal R}_{i}\) ;除竞拍者 \(i\) 之外的其他竞拍者的报告类型为 \(\mathbf{t}_{-i}=(t_{1},\ldots,t_{i-1},t_{i+1},\ldots,t_{n})\) ,且 \(\mathcal{T}_{-i}=\prod_{k\neq i}^{n}\mathcal{T}_{k}\)
    • 假设广告主对 item 的估值是平台的公开信息 ,使用 \(v_{i,j}>0\) 表示广告主 \(i\) 对 item \(j\) 的估值
  • 机制设计:在收集所有竞拍者的预算和ROI后,在线平台采用某种拍卖机制( \(\mathcal{A},\mathcal{P}\) )来决定广告分配和支付

    • 其中 \(\mathcal{A}\) 表示(随机化的)分配规则 \(\mathcal{A}:\mathcal{T}\rightarrow[0,1]^{n\times m}\)
    • \(\mathcal{P}\) 表示(随机化的)支付规则 \(\mathcal{P}:\mathcal{T}\rightarrow\mathbb{R}^{n}\)
    • 具体来说,对于报告的类型概况 \(\mathbf{t}^{\prime}\in\mathcal{T}\) ,竞拍者 \(i\) 被分配到 item \(j\) 的概率表示为 \(a_{i,j}(\mathbf{t}^{\prime})\) ,竞拍者 \(i\) 的预期支付表示为 \(p_{i}(\mathbf{t}^{\prime})\) 。对于任何 item \(j\in[m]\) ,分配约束为 \(\sum_{i=1}^{n}a_{i,j}(\mathbf{t}^{\prime})\leq 1\)
    • 一些变量和符号说明:
      • 竞拍者 \(i\) 在这些拍卖中的累积价值为:
        $$v_{i}(\mathbf{t}^{\prime})=\sum_{j=1}^{m}v_{i,j}a_{i,j}(\mathbf{t}^{\prime}),$$
      • 其实现的ROI为(注:如果 \(p_{i}(\mathbf{t}^{\prime})=0\) ,则视为 \(+\infty\) ):
        $$ \text{ROI}_{i}(\mathbf{t}^{\prime}):=\frac{v_{i}(\mathbf{t}^{\prime}) }{p_{i}(\mathbf{t}^{\prime})} $$
  • 具有预算和ROI约束且真实类型为 \(t_{i}=(B_{i},R_{i})\) 的竞拍者在报告 \(t^{\prime}_{i}\) 时的效用定义为
    $$u_{i}\left(t_{i},\mathbf{t}^{\prime}\right)=\begin{cases}v_{i}(\mathbf{t}^{\prime}),\text{if }p_{i}(\mathbf{t}^{\prime})\leq B_{i}\text{ And }\text{ROI}_{i}(\mathbf{t}^{\prime})\geq R_{i},\\ \ -\infty,\text{otherwise},\end{cases}$$

    • 其中类型概况 \(\mathbf{t}^{\prime}=(t^{\prime}_{i},\mathbf{t}^{\prime}_{-i})\)
  • 论文的目标是设计满足激励相容(IC)和个体理性(IR)条件的真实拍卖机制

论文设定下的一些定义

  • 定义 2.1 一个拍卖机制是占优策略激励相容(DSIC)的,如果 \(\forall i\in[n]\) , \(t_{i},t^{\prime}_{i}\in\mathcal{T}_{i},\mathbf{t}_{-i}\in\mathcal{T}_{-i}\) : \(u_{i}(t_{i},(t_{i},\mathbf{t}_{-i}))\geq u_{i}(t_{i},(t^{\prime}_{i},\mathbf{t}_{-i}))\)
  • 定义 2.2 一个拍卖机制是个体理性(IR)的,如果 \(\forall\mathbf{t}\in\mathcal{T}\) , \(i\in[n]\) : \(p_{i}(\mathbf{t})\leq B_{i}\) 且 \(\text{ROI}_{i}(\mathbf{t})\geq R_{i}\) 。(注:这个定义与传统定义完全相同)
  • 在线平台通常有一些需要最大化的目标。两个常见的设计目标是收入和社会福利。收入定义为竞拍者支付的总和,即 \(\sum_{i}p_{i}(\mathbf{t})\) 。对于社会福利,论文需要一个同义的指标,即流动性福利(Liquid welfare),定义为在不违反IR约束的情况下可以从竞拍者中提取的最大收入 ,以纳入财务约束的存在。在论文的背景下,流动性福利可以定义为:
    $$\text{LW}=\sum_{i\in[n],u_{i}(t_{i},\mathbf{t}^{\prime})\geq 0}\min\left(\frac{v_{i }(\mathbf{t}^{\prime})}{R_{i}},B_{i}\right).$$

真实性条件的特征

预算的真实性的条件

  • 特殊说明:为了满足预算上的激励相容性(IC)属性,论文需要确保竞拍者不会通过报告较小或较大的预算来获得更高的效用 ,以防止虚假报告:
    • 由于报告较小的预算不会导致竞拍者超出其原始预算约束,因此减少预算所获得的效用应该减少;
    • 对于报告较大预算并获得更高价值的竞拍者 ,论文需要通过收取费用使其超出原始预算约束(注:这里的原始预算约束是其真实预算约束),从而导致负无穷的效用
  • 定理 3.1 一个拍卖机制在预算 \(B\) 上是占优策略激励相容(DSIC)的,仅当 \(\forall i\in[n]\) , \(R\in\mathcal{R}_{i}\) , \(\mathbf{t}_{-i}\in\mathcal{T}_{-i}\) 时:
    • (1) \(v_{i}\left((B,R),\mathbf{t}_{-i}\right)\) 在 \(B\) 上是非递减的;
    • (2)如果对于 \(B^{\prime}>B\) , \(v_{i}\left((B^{\prime},R),\mathbf{t}_{-i}\right)>v_{i}\left((B,R),\mathbf{t}_{-i}\right)\) ,则
      $$p_{i}\left((B^{\prime},R),\mathbf{t}_{-i}\right)>B.$$
      • 理解:ROI不变的情况下,更多的收益意味着需要付出更多的钱。如果预算大与B导致获得的收益大比预算B时的大,则一定要付出比B更多的钱;当然,如果没有因为预算变大而获得比预算B下更多的收益,则计费是可以不用大于预算B的
    • 注意:不是当且仅当,是必要条件

ROI的真实性条件

  • ROI也可以同预算相关我们可以通过类似的陈述来说明ROI,表明竞拍者没有动机虚假报告其ROI
  • 定理 3.2 一个拍卖机制在ROI \(R\) 上是占优策略激励相容(DSIC)的,仅当 \(\forall i\in[n]\) , \(B\in\mathcal{B}_{i}\) , \(\mathbf{t}_{-i}\in\mathcal{T}_{-i}\) 时:
    • (1) \(v_{i}\left((B,R),\mathbf{t}_{-i}\right)\) 在 \(R\) 上是非递增的;
    • (2)如果对于 \(R^{\prime}<R\) , \(v_{i}\left((B,R^{\prime}),\mathbf{t}_{-i}\right)>v_{i}\left((B,R),\mathbf{t}_{-i}\right)\) ,则
      $$\text{ROI}_{i}\left((B,R^{\prime}),\mathbf{t}_{-i}\right)<R.$$
      • 理解:预算不变的情况下,更多的收益意味着更小的ROI
    • 注意:不是当且仅当,是必要条件

ROI和预算下的真实性条件

  • 说明:定理3.1和3.2中条件(1)所需的单调性属性与具有私人估值的准线性竞拍者的真实性条件(例如Myerson引理)相似,但条件(2)揭示了它们的基本差异:为了防止虚假报告,必须通过收取费用来打破至少一个约束(导致负无穷的效用)
    • 这里第二个条件是与Myerson引理最大的不同
  • 定理3.1和3.2自然地为二维类型 \((B,R)\) 的DSIC提供了必要条件。以下结果表明,这些条件也提供了充分条件。也就是说,如果竞拍者无法通过虚假报告其一个约束来获得更高的效用,那么虚假报告两个约束也无法获得更高的效用
    • 注:仅包括 \((B,R)\) 两个维度,所以称为二维类型
  • 定理 3.3 一个拍卖机制在预算和ROI上都是占优策略激励相容(DSIC)的,当且仅当它满足定理3.1和3.2

    From 自动出价下机制设计系列 (二) : 面向私有约束的激励兼容机制设计:
    上述引理中的单调递增/递减是非严格的。引理3与引理4自然地构成了 \((B,R)\) 双参数DSIC的必要条件。论文进一步证明了,它们实际上也构成了充要条件,也就是说,当竞拍者无法通过在单参数上的虚报获得更高效益时,也同样无法通过双参数上的同时虚报来获得更高的效益

    • 详细证明还需要再思考

可行分配规则的结构(Structures of Feasible Allocation Rule)

本节描述了可行的分配规则应该长什么样

  • 可行的分配规则定义:如果分配规则 \(\mathcal{A}\) 是可行的,则存在一个支付规则 \(\mathcal{P}\) 使得机制 \(\mathcal{A},\mathcal{P}\) 满足 Truthful(这里 Truthful 指的是拍卖机制能够激励参与者诚实地报告他们的估值或偏好)
    • 可行分配规则的集合是我们可以搜索真实拍卖的空间,尽管可能存在多个构成可行分配规则 \(\mathcal{A}\) 的真实拍卖的支付规则(问题:一个分配规则应该对应唯一的DSIC的拍卖规则吧?),但下面的定理允许论文专注于最大支付规则
    • 在激励相容的或者说是 truthful(真实的)的机制下,参与者的最佳策略是根据他们对物品的真实价值进行出价,而不是试图通过策略性出价来获得优势。而 最大支付规则 则指的是一种特定的支付规则,它确保了机制的激励兼容性,并且在这种规则下,支付额度是在保证机制真实性的前提下的最大值
    • 定义这种规则有助于简化拍卖机制的设计与分析
  • 定理3.4 :对于一个可行的分配规则 \(\mathcal{A}\),下面的计费机制 \(\mathcal{P}\) 对于所有的 \(i\in[n],(B_{i},R_{i})\in\mathcal{T}_{i}\),\(\boldsymbol{t}_{-i}\in\mathcal{T}_{-i}\),构成一个真实的拍卖机制(注意:这里不是唯一的 Truthful 拍卖机制):
    $$
    p_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right)=\min\left(\frac{v_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right)}{R_{i}},B_{i}\right),
    $$

    • 定理3.4的证明(注:论文的证明都在附录里):由于 \(\mathcal{A}\) 是可行的,存在对应的 \(\mathcal{P}^{\prime}\),使得 \((\mathcal{A},\mathcal{P}^{\prime})\) 是一个满足DSIC和IR条件的机制。注意到 \(p_{i}(B_{i},R_{i})=\min\left(\frac{v_{i}(B_{i},R_{i})}{R_{i}},B_{i}\right)\) 是从竞拍者 \(i\) 的类型 \((B_{i},R_{i})\) 中提取的最大可能支付,以满足竞拍者的ROI和预算要求。也就是说,\(p^{\prime}_{i}(B_{i},R_{i})\leq p_{i}(B_{i},R_{i})\)。另一方面,增加某个类型的支付不会破坏原本满足的定理3.1和3.2中的条件。因此,将支付从 \(p^{\prime}_{i}\) 修改为 \(p_{i}(B_{i},R_{i})=\min\left(\frac{v_{i}(B_{i},R_{i})}{R_{i}},B_{i}\right)\) 满足竞拍者的 预算和ROI 要求,并保持DSIC条件,因此 \((\mathcal{A},\mathcal{P})\) 是一个真实的机制
  • 定理3.5 :一个分配规则 \(\mathcal{A}\) 可以导出一个真实的拍卖机制,当且仅当对于所有的 \(\boldsymbol{t}\in\mathcal{T}\),\(i\in[n]\):

    • (1)累积价值 \(v_{i}\left((B,R),\boldsymbol{t}_{-i}\right)\) 在 \(R=R_{i}\) 时关于 \(B\) 是非递减的,并且在 \(B=B_{i}\) 时关于 \(R\) 是非递增的;
    • (2)如果 \(v_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right)>\lim_{B\to B_{i}^{-}}v_{i}\left((B,R_{i}),\boldsymbol{t}_{-i}\right)\),则
      $$
      v_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right)\geq B_{i}\times R_{i};
      $$
      • 理解:实际上应该是等于号吧?
    • (3)如果 \(v_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right)>\lim_{R\to R_{i}^{+}}v_{i}\left((B_{i},R),\boldsymbol{t}_{-i}\right)\),则
      $$
      v_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right)\leq B_{i}\times R_{i}.
      $$
    • 定理3.5的证明 :
      • 充分条件方向:可以通过应用定理3.3和3.4来验证
      • 必要条件方向:条件(1)直接来自定理3.3。为了证明条件(2),如果 \(v(B_{i},R_{i}) \lt B_{i}\times R_{i}\),则 \(p(B_{i},R_{i})\leq \frac{v(B_{i},R_{i})}{R_{i}} \lt B_{i}\),这与定理3.3在 \(B^{\prime}_{i}\to B^{-}_{i}\)(表示某个 \(B^{\prime}_{i} \lt B_{i}\) 无限接近 \(B_{i}\))时矛盾。条件(3)的分析类似
        • 问题:如何理解条件(2)的证明?若 \(v_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right) > v_{i}\left((B^-_i,R_{i}),\boldsymbol{t}_{-i}\right)\),则\(p(B_{i},R_{i}) \gt B^-_i = B_i\),进一步有:\( v_{i}\left((B_{i},R_{i}),\boldsymbol{t}_{-i}\right) \geq p(B_{i},R_{i}) \times R_i \geq B_i \times R_i \)
  • 定理3.5完全描述了可行分配规则的条件。在本小节中,论文将进一步利用定理3.5所指示的可行分配规则的结构,为真实拍卖设计提供更多指导

  • 根据定理3.5,累积价值 \(v\) 与项 \(B\times R\) 之间的关系严格描述了该类型是否与其邻近类型共享相同的累积价值,这使论文能够更清晰地表示 \(v\) 的结构。固定预算,随着ROI的减少,分配给该类型的累积价值应增加,注意项 \(B\times R\) 随着 \(R\) 的减少而减少;然而,定理3.5中的条件(3)要求,如果在此过程中累积价值严格增加,则其值不应超过 \(B\times R\) 。因此,必须存在某个阈值ROI,使得增加的累积价值与减少的 \(B\times R\) 相交,并且累积价值不能再增加。基于上述观察,论文定义
    $$\operatorname{thr}_{i}(B,\mathbf{t}_{-i})=\sup_{R\in\mathcal{R}_{i}}\left(v_{i} \left((B,R),\mathbf{t}_{-i}\right)\geq B\times R\right)$$

    • 说明:这里 \(\sup_{R\in\mathcal{R}_{i}}\) 表示 \(\operatorname{thr}_{i}(B,\mathbf{t}_{-i})\) 是一个ROI值
    • 如果所考虑的集合非空且有界,否则为 \(0\) 。结果表明,分配给该阈值ROI的累积价值正好是 \(B\times R\)
  • 定理 3.6 \(\forall i\in[n]\) , \(\mathbf{t}_{-i}\in\mathcal{T}_{-i}\) , \(B_{i}\in\mathcal{B}_{i}\) , \(R_{i}\leq\operatorname{thr}_{i}(B_{i},\mathbf{t}_{-i})\) :
    $$v_{i}\left((B_{i},R_{i}),\mathbf{t}_{-i}\right)=\operatorname{thr}_{i}(B_{i},\mathbf{t }_{-i})B_{i}.$$

  • 然后,我们可以将不同的预算组合在一起,以获得二维类型空间中可行分配的完整特征。由于所有高于阈值ROI的类型的累积价值 \(v \lt B\times R\) ,根据thr函数的定义,它们无法满足定理3.5中的条件(2),因此被迫与具有较小预算的邻近类型共享相同的累积价值

  • 定理 3.7 \(\forall i\in[n]\) , \(\mathbf{t}_{-i}\in\mathcal{T}_{-i}\) , \(B_{i}\in\mathcal{B}_{i}\backslash{0}\) , \(R_{i}>\operatorname{thr}_{i}(B_{i},\mathbf{t}_{-i})\) :
    $$v_{i}((B_{i},R_{i}),\mathbf{t}_{-i})=\lim_{B\to B_{i}^{-}}v_{i}\left((B,R_{i}),\mathbf{t }_{-i}\right).$$

  • 由于低于(定理3.6)和高于(定理3.7)ROI阈值的类型都已被完全描述,如果给定 \(\operatorname{thr}_{i}(B_{i},\mathbf{t}_{-i})\) 并且 \(\mathbf{t}_{-i}\) 固定,则整个类型空间上的累积价值可以完全定义。论文在图2中提供了一个示例来说明这些特征。对于低于阈值ROI曲线且具有相同预算 \(B\) 的类型(即位于同一垂直线上的类型),它们共享相同的累积价值 \(\operatorname{thr}_{i}(B)\times B\) 。对于曲线上的每个类型,其累积价值等于其具有较小预算的邻近类型的累积价值,直到达到其对应的ROI阈值上的某个类型。这相当于水平向左搜索以找到其对应的ROI阈值上最接近的类型,其中沿此水平搜索的所有类型共享相同的累积价值

  • 论文已经证明,当其他竞拍者的概况固定时,每个可行的二维累积价值函数(其输入为 \((B,R)\) )可以由一维阈值ROI函数(其输入为 \(B\) )表示,但尚不清楚哪些一维阈值ROI函数可以表示可行的累积价值函数。根据定理3.5中的条件(1),当 \(R\) 无限接近于 \(0\) 时,不同 \(B\) 的累积价值应增加,这表明 \(\operatorname{thr}_{i}(B,\mathbf{t}_{-i})\times B\) 需要在 \(B\) 上是非递减的。由于每个从非递减的 \(\operatorname{thr}_{i}(B,\mathbf{t}_{-i})\times B\) 映射的累积价值函数都满足定理3.5,这成为可行 \(\operatorname{thr}_{i}\) 函数的唯一要求

  • 推论 3.8 存在一个双射映射 \(m:\mathcal{G}\rightarrow\mathcal{V}\) ,其中
    $$
    \begin{align}
    (m\circ g)(B,R)=
    \begin{cases}g(B) &\text{if }R\leq\frac{g(B)}{B},\\
    g\left(\sup\limits_{B^{\prime}\leq B}\left\{R\leq\frac{g(B^{\prime})}{B^{ \prime}}\right\}\right) &\text{otherwise,}\end{cases}
    \end{align}
    $$

    • 为了方便表示,论文记 \(g_{i}(B_{i},\mathbf{t}_{-i})=\operatorname{thr}_{i}(B_{i},\mathbf{t}_{-i})\times B_{i}\) 。论文记 \(\mathcal{V}\) 为当 \(i\) 和 \(\mathbf{t}_{-i}\) 固定时的可行累积价值函数空间,即 \(v_{i}:T_{i}\rightarrow\mathbb{R}^{+}\) ,并记 \(\mathcal{G}\) 为非递减函数 \(g:\mathbb{R}^{+}\rightarrow\mathbb{R}^{+}\) 且 \(g(0)=0\) 的空间
    • 其中论文定义 \(\sup\varnothing=0\)
    • 换句话说,给定任何一维非递减函数且 \(g(0)=0\) ,我们可以通过上述映射过程将其转换为可行的累积价值函数

Truthful 拍卖设计

  • 推导出的可行分配规则的结构引发了一种价值分组现象。从上述给定阈值ROI曲线找到某个类型的累积价值的过程来看,阈值ROI曲线上的每个类型与两组类型共享相同的累积价值:垂直位于其下方的类型,以及水平位于其右侧且高于其对应阈值ROI的类型,如图2所示。这种复杂的价值分组现象是由真实性条件而非优化要求强制执行的。正如论文在图2中所观察到的,由于水平搜索在遇到阈值ROI曲线上的类型时终止,分组形状由不同 \(B_{i}\) 的 \(thr_{i}(B_{i},\mathbf{t}_{-i})\) 的相对排名决定。然而,尽管 \(thr_{i}(B_{i},\mathbf{t}_{-i})\) 需要保持 \(g(B)\) 非递减,但它本身不需要单调,这导致水平搜索的终止和分组形状的不规则。这也使得难以推导出共享相同分配的类型的闭式条件。此外,尽管分组类型的累积价值被迫相同,但它们的支付是根据定理3.4计算的,导致分组类型之间的支付不同,并且收入相对于阈值ROI是非线性的

  • 上述价值分组现象的特征,即分组形状的不规则性和支付的非线性,使得任何分析或数学规划方法都难以采用。为了实现可行且可实施的拍卖设计,论文提出了一类基于新设计的排名分数函数的简单真实拍卖

  • Truthful 拍卖算法:

    • 对于每个 item ,竞拍者根据其虚拟出价 \(b_{i,j}\) 进行排名,虚拟出价定义为 \(v_{i,j}\) 乘以某个预定义的非递增函数 \(f_{i,j}(R_{i})\) 的排名分数(第2行)
    • 然后,item 暂时分配给每个具有最高虚拟出价的竞拍者(第3-6行)
    • 在确定每个竞拍者 \(i\) 的候选分配集 \(A_{i}\) 后,论文计算竞拍者 \(i\) 在 item \(j\in A_{i}\) 中排名第一的相应ROI要求 \(r_{i,j}\) ,即竞拍者 \(i\) 需要报告 \(R_{i}\leq r_{i,j}\) 以保持在 item \(j\) 中排名第一(第8行)
      • 注意,这里使用逆运算和第二高价 \(c_j\) 是为了按照二价计费的思想,计算刚好保证拿到第一位竞胜位置需要的ROI
    • 第9行中的关键ROI是论文保证真实性的关键设计,它计算竞拍者可以报告的最大ROI以赢得 \(A_{i}\) 中的足够 item 并花费其预算。直观地说,关键ROI模拟了竞拍者在其预算约束下的最佳响应ROI,这不涉及并因此独立于其真实的ROI约束。论文自然地利用这个关键ROI,它将预算转换为与ROI相同的维度,作为阈值ROI函数,并根据第3节中的真实性条件设计其余部分
      • 关键ROI的理解:关键ROI是一个针对预算的虚拟的ROI,即赢得足够多的物品以消耗完预算的最大ROI ,每个用户 \(i\) 都有一个关键ROI \(R_i^c\) ,如果用户按照关键ROI去作为阈值,则对于竞胜所需 \(r_{i,j} \geq R_i^c\) 的 item \(j\) 都会被分配给用户 \(i\)。对于用户 \(i\),要求所有被分配的 item 都按照其价值和关键ROI来售卖 \(p_{i,j} = \frac{v_{i,j}}{R_i^c}\)。最终挑选的关键ROI \(R_i^c\) 是且使得用户总支出收入刚好大于用户设置的预算 \(B_i\) 的最大关键ROI(注意:相同预算下,关键ROI越大,能分配到的 item 就越少 ,所以其他条件不变情况下,预算越小,分配到的 item 越多,关键ROI就越大)
    • 第10-11行旨在保证 \(A_{i}\) 中剩余 item 的价值正好等于竞拍者的预算乘以计算的关键ROI(定理3.6)
      • 问题:\(d\) 是左边减去右边的差值吗? 【是的】
      • 问题:如何理解移除竞胜ROI与关键ROI相等的 item ?【是因为这样可以精准的使得左右两边相等,即剩余 item 的价值正好等于竞拍者的预算乘以计算的关键ROI】
      • 问题:清除的 item 卖给谁呢?
    • 第12-13行旨在保证ROI大于相应关键ROI的类型将根据其报告的ROI进行分配(定理3.7)并获得所有 \(r_{i,j}\geq R_{i}\) 的 item
      • 如果商家设置的ROI小于关键ROI,则说明预算对应的虚拟ROI大于商家ROI,也就是预算时紧约束,需要将小于关键ROI的部分 item 清除出去
      • 问题:清除的 item 卖给谁呢?
    • 第14行根据定理3.4确定每个竞拍者的支付。由于其低时间复杂度,算法1具有良好的实现可扩展性
  • 定理 4.1 如果预定义的函数 \(f_{i,j}(R)\) 在 \(R\) 上是非递增的,则算法1对应的拍卖机制是真实的

    • 论文的证明通过找出并验证算法1的相应 \(g(B)\) 和阈值ROI函数来进行。我们可以根据拍卖目标和广告活动前的先验知识(如竞拍者的类型分布和即将到来的 item 的信息)为竞拍者和 item 设计个性化的 \(f_{i,j}(R)\)

Experiments

  • 在本节中,论文使用合成数据进行了实验,以验证论文提出的拍卖机制的性能。(注意:没有真实上线验证)

Experiment Setup

  • 论文进行了两组实验,分别针对独立同分布(i.i.d.)和非独立同分布(non-i.i.d.)的竞拍者。论文通过改变竞拍者和 item 的数量来模拟需求和供应的变化。所呈现的结果是50次运行的平均值。论文根据广告市场中的常见波动选择分布参数,并对 \(v_{i,j}\) 的下界进行归一化

    • 对称竞拍者 竞拍者是对称的, \(v_{i,j}\sim U[1,4]\) , \(B_{i}\sim U[40,80]\) , \(R_{i}\sim U[1,3]\) ,其中 \(U[a,b]\) 表示范围 \([a,b]\) 内的均匀分布
    • 混合竞拍者 对于 \(v_{i,j}\) 、 \(B_{i}\) 和 \(R_{i}\) ,存在低分布和高分布作为竞拍者的可能类型。具体来说, \(v_{i,j}\sim U[1,2]\) 或 \(v_{i,j}\sim U[2,3]\) , \(B_{i}\sim U[20,40]\) 或 \(B_{i}\sim U[80,100]\) , \(R_{i}\sim U[1,2]\) 或 \(R_{i}\sim U[2,3]\) 。这些类别的组合形成了8组竞拍者
  • 基线拍卖 由于现有的机制无法保证预算和ROI的激励相容性(IC)属性,论文考虑了常见的重复拍卖形式:第一价格拍卖和第二价格拍卖。由于它们的非真实性(见论文的完整版本),论文在这些拍卖中引入了虚假报告

    • 重复第一价格和第二价格拍卖 :拍卖者为每个 item 举行第一价格(第二价格)拍卖,竞拍者 \(i\) 对 item \(j\) 出价 \(\frac{v_{i,j}}{R_{i}}\) 。拍卖者将 item 分配给排名最高且有剩余预算支付的竞拍者,并收取第一价格(第二价格)支付。论文通过经典的最佳响应动态模拟竞拍者的虚假报告行为,以真实概况为起点。在重复第一价格(第二价格)拍卖中,竞拍者没有动机虚假报告其预算。论文计算最佳响应ROI为在历史拍卖中实现最高效用的最小ROI
    • 非真实最优基线 :通过线性规划可以计算出最优离线收入,其中论文将每个竞拍者 \(i\) 对 item \(j\) 的支付设置为 \(\frac{v_{i,j}\times a_{i,j}}{R_{i}}\) ,并且其总支付不超过 \(B_{i}\)
  • 评估指标 论文考虑收入和社会福利作为优化目标。由于定理3.4中的支付公式(Eq.2)与方程(Eq.1)中社会福利的定义一致,当没有竞拍者获得负无穷效用时,收入和社会福利的指标将相同,因此论文将在结果中仅报告收入。此外,由于广告主在不同时间段内的拍卖表现可能波动,公平性也应被考虑,以保持竞拍者参与拍卖的意愿。使用社会福利替代传统的估值函数,公平性定义为
    $$\text{fairness}=\min_{i\in[n]}\min\left(\frac{v_{i}(\boldsymbol{t}^{\prime})}{R_{i}},B_{i}\right).$$

  • 排名分数函数 论文采用形式为 \(f_{i,j}(R)=\alpha_{i,j}\times e^{-\beta R}\) 的排名分数,其中 \(\alpha_{i,j}\) 从修正的正态分布 \(N(\mu_{i},\sigma_{i}^{2})\) 中抽取, \(\beta,\mu_{i},\sigma_{i}\) 是预设参数。在 \(f(R)\) 中, \(\beta\) 用于调整ROI对等效出价的影响, \(\alpha\) 保持不同竞拍者的排名分数在可比范围内。由于当某些竞拍者赢得过多 item 时, item 可能会被丢弃(算法1中的第13行),为了避免社会福利和收入的损失,论文应在供应充足时为其他竞拍者提供非平凡的获胜机会,这是通过 \(\alpha\sim N(\mu_{i},\sigma_{i}^{2})\) 中的随机性提供的。对于每个自动出价环境,论文为遵循相同分布的竞拍者设置相同的排名分数函数参数,并选择在该环境中收入较好的参数

实验结果

  • 实验结果如下:
  • 对称竞拍者 :Figure 3(a)报告了论文的真实拍卖(称为DSIC)和基线拍卖在不同竞拍者数量下的收入,Figure 3(b)报告了 item 数量变化时的收入。论文的真实拍卖比第一价格和第二价格拍卖实现了更好的收入,并且通常实现了接近最优基线90%以上的收入。值得注意的是,当 item 过多时,第一价格拍卖的收入明显下降,这也导致了公平性的下降(Figure 3(c))。这是因为竞拍者在面对一些低价未售出的 item 时过度增加了其报告的ROI,导致所有支付按比例减少。在Figure 3(c)中,论文报告了在固定40个竞拍者的情况下,不同 item 数量下的公平性结果,如Figure 3(b)所示。正如排名分数函数中所设计的,论文的拍卖不会将过多的 item 分配给某个竞拍者,以避免 item 浪费,因此在 item 数量在600到1200之间时,比最优基线实现了更好的公平性。当 item 短缺时(Figure 3(c)中的200/400个 item ),论文的真实拍卖由于追求收入而在一定程度上损害了公平性。我们可以通过不同的排名分数函数参数 \(\beta\) 来控制公平性和收入之间的权衡。Figure 3(d)报告了在400个 item 的情况下,不同 \(\beta\) 的一组收入和社会福利表现。为了实现更高的收入,不可避免地会在不同竞拍者之间进行歧视性分配,并在 item 不充足时损害公平性
  • 混合竞拍者 :论文展示了在非独立同分布设置中选择适当排名分数函数的重要性。论文选择了三组排名分数函数,分别在三种典型设置中表现良好:40个混合竞拍者,200/1000/1600个 item ,并在其他两种设置中测试它们的表现。结果如图4所示,其中DSIC- \(n\) 表示在设置 \(n\) 中表现良好的真实拍卖。DSIC-n机制仅在设置 \(n\) 中表现良好,原因应来自于实现高收入所需的不同分配方法。例如,为了在 item 短缺时实现高收入(设置1),DSIC-1拍卖将大多数 item 分配给具有高价值和低ROI的竞拍者,导致在设置2和3中将这些竞拍者分配过多的 item 而忽略其他竞拍者

附录:思考

  • 智能出价中保成本技术是否还需要?
    • 答案是不需要。当前这种拍卖方式下,并不需要使用控制算法去保成本,假定预估值足够准确的情况下,按照 \(v_{i,j} \times f_{i,j}(R_i)\) 反算对应位置上的出价即可,这里常见是使用 \(v_{i,j} \times \frac{1}{R_i}\) 作为出价公式
  • 是否有部分 item 无法卖出去?
    • 目前看是的,特别是当广告主的 ROI和关键ROI(即预算) 之间差异较大时

CA——oCPX中PID对效率的影响讨论

本文简单讨论oCPX中PID对效率的影响


本文的 oCPX 场景设定

  • 本文设定广告主出价点在 ROI 上 ,计费点在 CPC 上
  • 共 \(N\) 个广告主
  • 每个广告主有一个自己的ROI,且这个ROI是广告主私有价值的真实表达
  • 为简化讨论,假设每个广告主的预算无限
  • 假定预估值是准确的(比如PCOC是1.0,如果不准确可以优化预估模型,本文不讨论这个问题)

单次拍卖下oCPX的效率讨论

  • 假设在单次拍卖下,每个广告主的真实表达是ROI,此时社会福利为:
    $$ \sum_{i=1}^N CTR_i\cdot CVR_i \cdot Price_i \cdot \frac{1}{ROI_i} $$
    • 其中 \(i\) 表示广告主索引
  • 显然此时按照下面的公式排序是最优的:
    $$eCPM_i = CTR_i\cdot CVR_i \cdot Price_i \cdot \frac{1}{ROI_i}$$
  • PID会在出价上增加一个PID系数 \(k_i\),即:
    $$Bid_{\text{cpc}} = CVR_i \cdot Price_i \cdot \frac{1}{ROI_i} \cdot \color{red}{k_i}$$
    • \(k_i\) 与广告主当前达成情况有关,与当前请求流量价值无关
    • 显然可以看出,不同广告主的 \(k_i\) 不同,此时按照 \(eCPM_i = CTR_i\cdot Bid_{\text{cpc}}\) 的排序无法保证社会福利最大化了
  • 实际上,可以证明,对于单次拍卖下,当广告主在这次请求上都表达出自己的真实ROI时,无论如何扰动出价(即任何调价策略),只要不是所有广告主的 \(k_i\) 完全相同,都无法保证社会福利最大化

多轮拍卖下oCPX的效率讨论

  • 多轮拍卖下的oCPX设定 :广告主的ROI出价是一个投放周期内的均值,仅需要保证广告主全天的ROI即可
  • ROI出价下,广告主对流量没有没有除ROI外的倾向 :由于ROI出价下,广告主已经表达了自己对流量价值的真实评估 ,所以可以假定广告主对整个周期内流量是没有除ROI外的倾向的,即所有流量价值都可通过统一的ROI来表达
    • 注意:这里是因为广告主出价已经在ROI上了,可以认为全周期内流量价值是无倾向的 ,如果出价点只到CPS上或还有更深的转化点,则无法假设全周期内流量均匀(比如CPS出价下,按照天粒度为周期出价,则可能出现早上的均单价高于晚上的均单价的情况,此时ROI在全天不是完全统一的)
  • 不调价才能保证社会福利最大化 :由于可以假定整个周期内广告主的ROI是真实的且不变的,所以我们认为每一次请求,广告主的真实ROI是不变的,由此问题可转化为单次拍卖下oCPX问题 ,根据前面单次拍卖下oCPX的效率讨论结论可以知,不调价才能保证社会福利最大化

PID的作用

  • 对不准确预估值进行修正 :可以部分修正预估值不准确的情况,特别是均值
    • 比如模型保障的是7天的PCOC,单天的无法保证,但oCPX周期为一天
    • 比如某个广场突然开了一个演唱会,广告主的预估值不再能表达真实值
  • 降低随机波动带来的影响 :可以减少因为随机波动导致的广告主ROI无法达成的情况
    • 正常的随机波动可能导致某一段时间内欠成本或超成本(即使预估值准确),PID的引入可以在欠成本时刻意提升出价、超成本时刻意降低出价,使得ROI成本在有限的竞价轮次内尽快达成

附录:预估值准确了为什么还需要PID?

  • 如果无限拉长周期 ,在预估值 \(CVR_i \cdot Price_i\) 准确(特别是保证PCOC为1)的情况下,无需调整出价(直接按照PID系数 \(k_i=1\) 来出价),在无限次拍卖下 ,统计意义上广告主的ROI是可以保证达成的,这一点由大数定理来保证;
  • 在现实场景中,每个广告主拍卖次数是有限的,且广告主的后验转化率在有限的周期内等会在期望附近波动(这是随机性导致的,即使预估模型足够准确也会出现)。此时如果不调整出价 ,无法保证在单个有限拍卖次数的周期内能达成ROI
    • 具体表现为:广告主长远来看ROI是达成的 ,但是广告主的ROI在一个周期内超成本 ,在另一个周期内欠成本 ,来回波动
    • 解决方案:针对后验转化率 ,对出价系数进行调整,比如PID方法 ,尽量保证每个周期内都能达成

附录:预算有限的情况下结论一样吗?

  • 预算有限的情况下,以上结论不成立:此时广告主可以有取舍,在不同流量上会有不同的ROI出价,有选择的对流量进行取舍,从而提升平台整体的的社会福利
    • 预算有限场景的举例:
      • 两个广告主A,B;两个请求(请求1,2依次发生)
      • 广告主A预算为10,对请求1福利为10,广告主A对请求2福利为9;
      • 广告主B预算为20,对请求1福利为10,广告主B对请求2福利为1;
      • 则广告主A在请求1上不花钱(说假话),且在请求2上花10整体社会福利为19,广告主A在请求1上说真话时社会福利为11

CA——oCPX产品赔付机制的讨论

本文简单讨论oCPX产品赔付机制

  • 参考链接:
    • 百度OCPC、OCPM、OCPX自动赔付标准及退款周期
    • 字节巨量-oCPM自动赔付规则
    • 快手&磁力金牛OCPX自动赔付规则是什么?赔付条件有哪些?
    • 趣头条广告平台oCPX赔付政策介绍
    • 商品推广-多目标出价

百度赔付规则

  • 赔付统计周期
    • 3个自然日,今日投放,则未来3天内都是统计周期
  • 赔付条件
    • 1)在返款统计周期内转化数累计≥5;
    • 2)超出广告主预期消费20%,(实际消费-预期消费)/预期消费>20%;
    • 3)在返款核算评估期间,每天修改广告单元出价的次数≤2次;
  • 赔付金额
    • 1)预期消费 =(目标成本1 * 对应转化数)+(目标成本2 * 对应转化数)+ …(目标成本n*对应转化数)
    • 2)返款金额 = 实际消费 - 预期消费

字节赔付规则

  • 赔付统计周期
    • 5个自然日,今日投放,则未来5天内都是统计周期
  • 赔付条件
      1. 超成本比例:转化成本超过目标成本的20%以上(举例:目标成本10元,转化成本≥12元)
      1. 赔付时间范围:以广告计划首次投放出去的时间为起始,至之后的3个自然日内(投放时间以平台统计为准)
      1. 修改要求:每天修改广告计划出价或定向其中任意一个的次数不能超过2次
      1. 转化数量要求(不含一键起量、账户优选起量的转化数),这里不同的媒体平台和计费模式不同
        • oCPM场景,一般在2-6个转化不等,oCPC场景,要求大于31个转化才赔付
      1. 广告主无异常作弊等操作行为
  • 赔付金额
      1. 总预期消耗 =(目标成本1 * 对应转化数)+(目标成本2 * 对应转化数)+ …
      1. 赔付金额 = 总实际消耗 - 总预期消耗

快手赔付规则

  • 赔付统计周期
    • 14个自然日,今日投放,则未来14天内都是统计周期,其中直播推广的商品点击等场景是2个自然日
  • 赔付条件
    • 超过120%
    • 同一天内修改次数小于等于两次(注意是同一天内小于等于2次,任意一天不满足都不赔付)
    • 转化数超过一定阈值
  • 赔付金额
    • 同字节和百度

趣头条赔付规则

  • 赔付统计周期
    • 3个自然日,今日投放,则未来3天内都是统计周期
  • 赔付条件
    • 单元所在赔付周期内,实际转化成本超过目标出价的20%以上(举例:目标出价30元,则在单元实际成本>36元时享有赔付资格);
    • 在一个赔付周期内,单元的出价(含目标出价、深度转化出价、目标次留率)及单元定向,每天修改次数分别不超过2次,如超过则所在周期失去赔付资格;
      • 注意这里是赔付周期内不能修改超过2次(其他公司常用每天不超过2次)
    • 赔付周期内转化数超过一定阈值
  • 赔付金额
    • 同字节和百度

拼多多

  • 无赔付(截止到25年4月)

整体总结

  • 赔付统计周期
    • 一般在3-14天不等(主要是面临转化归因慢的问题)
  • 赔付条件
    • 超过120%(主要是避免因为正常波动导致的超成本)
    • 同一天内改价次数不能超过2次(主要用于防止广告主频繁改价作弊,同时也防止出价目标变化太快,系统来不及调整)
    • 赔付周期内有一定的转化数(减少广告主不回传/说假话)
  • 赔付金额
    • 赔付金额 = 总实际消耗 - 总预期消耗 = 总实际消耗 - (目标成本1 * 对应转化数)+(目标成本2 * 对应转化数)+ …(主要是保证广告主改价的体验)

一些特殊场景的oCPX赔付规则思考

  • 子问题:在订单闭环、广告主广告理解能力弱、对平台信任度低、广告主订单数据特别稀疏的场景中,可以如下设置赔付规则?
  • 赔付周期:
    • 1天为周期赔付(促进广告主信任和理解)
  • 赔付条件:
    • 超成本就赔付(促进广告主理解和信任,120%赔付下给广告主的解释成本较高,后续可以逐步尝试)
    • 转化数无要求(闭环情况下,广告主无法说假话)
    • 消耗金额给与一定要求(防止广告主投放中途为了赔付而关闭投放)
    • 改价次数尽量少(防止目标波动)
  • 赔付金额:
    • 规则设计:赔付金额 = 总实际消耗 - (总转化数 * 当日最大目标成本)
    • 这样设计的好处有:
      • 能起到不鼓励广告主改价的效果,因为从赔付金额计算方式来看,广告主改价一定是亏的(有效促进系统稳定性)
      • 方便系统统计和归因(不需要记录成本改价时间和订单具体归因时间,部分订单是难以归属上准确时间的)
      • 容易给到广告主解释(比如11点改价,那么10:59点击带来的11:02分下单的订单如何归因?广告主理解成本较高)
    • 这样设计的坏处有:
      • 这种情况不鼓励广告主改价,从而广告主可能也不愿意向上提价(这里通过提价后系统给扶持来部分缓解)
      • 系统策略可能hack规则不论广告主是否改价都按照最高价收(需要注意为了价格杠杆考虑,也为了广告主利益考虑,不应该按照最高价出价,而应该在每个时刻都按照广告主当前设置目标出价)

CA——拍卖机制设计概述

注:论文主要参考自万字长文,漫谈广告技术中的拍卖机制设计(经典篇)等资料,有一些自己的思考

  • 参考链接:
    • 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)

名词解释

  • 竞拍者 :需求方,在广告系统中就是广告主
  • 机制拍卖中的一般假设 :一般假设竞拍者是理性的,即满足个体理性(收益非负),且有能力通过调整自己的策略来获得更高的收益,
  • 私有信息(Private Value) :也称为私有估值 ,竞拍者对物品、广告位的估值一般是私有信息,一些论文也称为Type类型 ,该信息是外部不可知的
    • 一些机制设计的目标就是诱导竞拍者在博弈中真实表达自己的私有信息(所以要设计他们说真话是他们的最优策略的机制)
  • 拍卖机制 :包含分配规则(Allocation Rule)和计费规则(Payment Rule)两个部分
  • 效用(Utility) :一般是价值减去支出即 效用函数 = 广告主获得的价值 - 广告主的支付价格,即 \(u = v - p\)
  • 广告主偏好 :通常包含效用最大化(Utility Maximizer)和价值最大化(Value Maximizer)两种类型
  • 社会福利(Social Welfare) :指的是整体广告主的价值和,单个广告主对单个广告位置的价值 = 广告主获得广告位的概率 * 广告位对广告主的价值
    • \(n\) 个竞拍者的社会福利可表示为 \(SW = \sum_{i=1}^n v_i x_i\),其中 \(x_i\) 是竞拍者 \(i\) 获得物品的分配概率,\(v_i\) 是竞拍者 \(i\) 对该物品的估值
    • 社会福利的另一个视角:广告主效用为0时(即商家说真话且按照一价计费时),社会福利等于买家从广告主手里获得的收入 ,所以社会福利也可以表达为 在满足 IR 的情况下,社会福利等于买家可以从广告主手里获得的最大收入
  • 流动性福利(Liquid welfare)【未找到精确定义,待补充】 :流动性福利是指存在预算约束情况下的社会福利(目前看到的都是预算约束下的流动性社会福利定义),表示在不违反财务约束的情况下可以从竞拍者中提取的最大收入 ,Auto-bidding and Auctions in Online Advertising: A Survey, 202408, Google 中有相关的定义(Truthful Auctions for Automated Bidding in Online Advertising, IJCAI 2023, Alibaba 中有ROI约束+预算约束下的定义)
    • \(n\) 个竞拍者的流动性福利可表示为\(\text{LW}=\sum_{i\in[n],u_{i}(t_{i},\mathbf{t}^{\prime})\geq 0}\min\left(\frac{v_{i }(\mathbf{t}^{\prime})}{R_{i}},B_{i}\right)\),其中 \(R_i,B_i,v_i(\mathbf{t}^{\prime})\) 分别表示广告主设置的ROI,预算和广告主的累计价值 ,关于社会福利和流动性福利的更多讨论见附录
  • 有效机制(efficient mechanism) :社会福利最大化的机制是对资源最有效率的配置方式,所以该类型的机制也叫有效机制
  • 最优机制(optimal mechanism) :平台收入最大化的机制称为最优机制
  • 拍卖机制的目标 :使得广告主竞价博弈收敛结果符合平台预期(平台预期包括平台收益、社会福利等)
    • 常见的目标包括社会福利最大化和平台营收最大化
  • 激励相容(Incentive Compatibility) : 鼓励竞拍者讲真话
  • 优势策略激励相容(Dominant-Strategy Incentive Compatibility,简称DSIC) :不管其他智能体如何报告自己的私有信息,如实报告(即讲真话)都是每个广告主的最优决策,即说真话时广告主效用最大化(效用最大化类型的用户);
  • 贝叶斯纳什激励相容(Bayes-Nash Incentive Compatibility,简称BIC) :如果其他广告主是如实报告自己的私有信息的,那么广告主最优反应也是如实报告
  • 完全信息设定 :参与者知道其他参与方的真实类型
  • 不完全信息设定 :参与者只知道其他参与方的类型分布(而不是真实类型)
  • 博弈均衡 :博弈均衡是博弈论中的一个核心概念,它描述了在给定的博弈规则下 ,参与者选择某种策略后所达到的一种均衡状态(稳定状态)。在这种状态下 ,每个参与者都无法通过单方面改变自己的策略来获得更好的结果。换句话说,博弈均衡是一种策略组合 ,使得任何一个参与者都没有动机去单方面改变自己的策略
    • 纳什均衡 Nash Equilibrium(NE) :在完全信息设定下的,一种在给定其他参与者策略时,任何单个参与者都没有动机去改变自己的策略的均衡状态
      • 囚徒困境是一个典型的纳什均衡,两者都选择说真话就是囚徒困境的纳什均衡状态
    • 贝叶斯纳什均衡 Bayesian Nash Equilibrium(BNE) :一种在不完全信息设定下得,一种在给定其他参与者策略和类型分布(注意:只知道类型分布,不知道真实类型)时,没有参与者有动机单独改变其策略的均衡状态
      • 贝叶斯纳什均衡可以看做是对纳什均衡的一个扩展,用于处理不完全信息的情况
    • 优势策略均衡 Dominant Strategy Equilibrium(DSE) :一种在完全信息或不完全信息设定下得,无论其他参与者选择什么策略 ,每个参与者策略总有自己的最优策略的均衡状态
      • 如果存在优势策略均衡,则它一定是唯一的纳什均衡 ,因为每个参与者都有明确的最佳行动,不受其他参与者行为的影响
      • 优势策略均衡一定是一个纳什均衡
    • 注:一个好的机制下,博弈结果可以有一个均衡 ,也可以有多个均衡 ,但不能是非均衡的
  • 直接显示机制(direct-revelation mechanism) :要求参与者直接如实报告自己的私有信息(例如在拍卖中直接出价,而非通过复杂的行为间接传递信息)
    • 直接显示机制不一定满足 DSIC :实际上,参与者会报告一个自己的类型空间中的值(不一定是真实的),即
    • 直接显示机制不一定存在均衡状态 :可能竞拍者会来回调整他的报价,尝试拿到更优的收益
    • 注意:在一些书籍或博客中,会表达直接显示机制要求竞拍者如实报价 ,这会让人误以为直接显示机制都是 DSIC 的,我的理解是这并不代表机制是 DSIC 的,要求只是表达一个期望,要求了竞价者也不一定会如实上报
  • 可实施的分配规则 :对于一个分配规则x ,如果存在一个扣费规则p ,使得直接显示机制 (x, p) 是满足 DISC 性质的,那么就称这个分配规则x是可实施的;

理想的拍卖机制是怎样的?

  • 高效率保证 :多项式时间(一般近似线性)内完成分配和扣费两个计算过程
    • 为了可以应用,这个规则一般不可以做松弛
  • 高效果保证 :存在均衡 ,且均衡结果满足引导预期 ,社会福利最大化或平台营收最大化;
    • 为了保证高效率保证 ,这个要求可以被松弛,主要是涉及到分配规则

      from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
      因为最优分配问题本质是一个背包问题,而背包问题是NP困难问题,分配规则不可能在多项式时间内被实现,所以往往采用启发式的贪心算法,也就是业界常用的排序策略。这样分配问题就转化为了排序问题,例如论文开头Rankscore计算公式的设计,可以获得高效率的近似最优解

  • 高动机保证 :优势策略激励相容(DSIC) ,即如实报价是参与者的优势策略(注意此时均衡不仅存在,而且是以最严格的优势策略均衡(DSE)的形式存在);
    • 为了保证高效率保证 ,这个要求也可以被松弛,主要涉及到扣费规则

      from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)

      • Myerson引理证明当分配规则确定 ,扣费规则就是唯一的、且有明确的表达式 ,假设该表达式是a。可是实际环境非常复杂,或因为计算效率问题,或因为业务约束问题,导致实际采用的扣费规则没有用a,却用了b,那么DSIC就会被破坏
      • 但是非DSIC机制就一定很糟糕吗?答案非也。前文提到,优势策略均衡是最理想的均衡结果 ,机制设计的底限是要有均衡的预期 ,有均衡预期就有足够假设来预测智能体的行为,那么机制结果就能有效推演。所以非DSIC机制也可以有不错的均衡性质 ,它们在实际中很常见
      • 例如广告拍卖机制中,假设广告主偏好模式是Utility Maximizer ,平台优化目标是社会福利最大化 ,那么只有VCG机制满足 DSIC ,GSP机制不满足 DSIC ,但是也不妨碍GSP机制盛行,详细内容下文会重点介绍
  • 个人理解:
    • 拍卖机制能最大化社会福利的前提是竞拍者真实报告自己的类型,否则无法实现,故而要尽量保证 DSIC 才能尽量做到 社会福利最大化

Myerson 引理

  • 分配规则 :一个分配规则是可实施 ,当且仅当它是单调的;
  • 扣费规则 :如果分配规则是单调的,那么存在唯一的扣费规则 ,使得直接显示机制是 DSIC 的,且这个扣费规则有明确的表达式

拍卖形式的分类

  • 单物品拍卖和多物品拍卖 :按拍卖品数量划分,有些文章也称为单位置拍卖和多位置拍卖
  • 单参数拍卖和多参数拍卖 :按照竞拍者报价数量划分,注意是一次拍卖中,上报多个估值还是上报一个估值划分
  • 单轮拍卖和多轮拍卖 :按照竞拍论述划分

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    轮数越多,竞拍者的私有信息Type会越来越成为公有信息,使得竞拍者能有更多的信息做决策从而调整报价策略。虽然多轮拍卖更加契合实际广告拍卖场景,广告主一笔预算往往会参与很多轮的请求报价,但是多轮的机制设计比单轮复杂很多,一般简化为单轮拍卖形式进行分析讨论

  • 无约束拍卖和有约束拍卖 :按照竞拍者目标是否带着约束划分

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    有约束是指在广告主追求营销目标最大化的同时会带有指标约束,例如预算约束或者ROI约束等,这样广告主报价策略会从短期收益最大化调整为长期收益最大化,这对机制性质也会带来不小挑战

  • 注意:一般的广告拍卖场景中(包括万字长文,漫谈广告技术中的拍卖机制设计(经典篇)),一般都将广告的经典机制设计范畴规约在“异质多物品、单参数、单轮和无约束”拍卖形式下(简称多物品拍卖)

社会福利最大化的拍卖机制

  • 社会福利最大化的机制是对资源最有效率的配置方式,所以该类型的机制也叫有效机制(efficient mechanism)

SW最大化-单物品拍卖的有效机制

  • 二价计费(Second-price auction,简称SP)机制,也叫 Vickrey auction,是社会福利最大化的 DSIC 机制

SW最大化-多物品拍卖下VCG和GSP机制比较

VCG机制

  • 多物品拍卖下,若想要实现社会福利最大化 ,分配规则应该按照报价从高到低排序,第 \(i\) 高报价的竞拍者获得第 \(i\) 好的物品,此时,通过Myerson引理可以证明,满足DSIC的唯一支付公式是VCG扣费方式:
    $$ p_i = \sum_{j=i}^k b_{j+1} \frac{\alpha_j - \alpha_{j+1}}{\alpha_i} $$

    • 付费是该竞拍者赢得广告位后,给其他广告主带来的收益损失是该竞拍者需要支付的费用;直观理解为:从自己获得的这一物品起,后续所有物品上对其他人造成的损失和(因为后面每个竞拍者都因为竞拍者 \(i\) 的存在而后移一位,所以可以如上式表示社会福利),一般的论文中,也常常也表示为:
      $$ p_i = SW_{-i} - (SW - v_i x_i) $$
      • \(SW_{-i}\) 是竞拍者 \(i\) 不参与竞拍时的其他人获得的总社会福利
      • \(SW - v_i x_i\) 是竞拍者 \(i\) 参与竞拍时的其他人获得的总社会福利 , \(SW\) 则表示包括竞拍者 \(i\) 在内的总体社会福利
  • 多物品拍卖下的Vickrey–Clarke–Groves auction(简称VCG机制)是单物品拍卖下的Vickrey auction(也称SP机制)有效升级,下图准确表示了 VCG 机制是满足 DSIC 的:

    • \(z\) 表示估值分布,\(v\) 表示真实估值,\(b\) 表示报价;\(x(z)\) 表示分配结果(对应为点击率),\(p(v)\) 或 \(p(b)\) 表示计费结果
    • 三列分别为出真实价值 \(b = v\),出高价 \(b > v\) 和出低价 \(b < v\) 的情况
    • 第一行表示不同出价 \(b\) 下获得的价值,第二行表示支付金额,第三行表示效用(Utility) = 价值 - 支付,即 \(u = v\cdot x(b) - p(b)\)
    • 阶梯函数是因为在不同的位置,点击率不同,但同一个位置,随着出价变化,点击率是相同的
    • 图中绿色部分就是收益部分(注:第三行第二列中绿色区间还要减去阴影部分才可以),显然说真话是效用是最大的
  • 多物品拍卖下,若目标是社会福利最大化 ,则VCG机制是满足 DSIC 机制的唯一机制

    • 单物品拍卖下,若目标是社会福利最大化 ,SP机制是满足 DSIC 机制的唯一机制
    • 单物品拍卖下,若目标是平台收入最大化 ,Myerson拍卖机制是满足 DSIC 机制的机制(并非唯一?)
  • VCG机制的缺点 :

    • 计算复杂 :运行效率低下,运算复杂(比如一些场景中需要做listwise的CTR预估)
    • 平台收入低 :平台收入较低(比GSP等都低,可以认为是常见的收入最低的拍卖形式,唯一的优点是满足 DSIC)
    • 解释成本高 :给广告主解释困难

GSP机制

  • GSP机制(Generalized second-price auction)分配规则和VCG一样,按照下一位出价计费:
    $$ p_i = b_{i+1} $$
  • 类似上面 VCG 机制的分析图,下图展示了 GSP 机制的分析情况:
    • 可以看到,报高价没有正向收益(第三行第二列),但是报低价有可能获得更高的效用(第三行第三列和第三行第一列的绿色区域孰高孰低不一定)
  • 广告主是效用最大化类型时,GSP虽然不是 DSIC 的,但是其有不错的均衡性质(机制要求均衡且均衡状态满足机制目标即可,不一定要 DSIC ,DSIC 是个非常强的性质),GSP包含两个视角的均衡 :
    • Pure Nash Equilibrium under Full-Information Setting :完全信息设定下的纳什均衡?
    • Bayesian Nash Equilibrium under Partial-Information Setting :不完全信息设定下的贝叶斯纳什均衡?

      from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
      以前者(理解:这里指Pure Nash Equilibrium under Full-Information Setting)为例,假设多轮竞价交互之后广告主的估值成为公有信息,GSP机制达到的一种均衡结果是广告主会认为保留当前位置是最优策略,不愿意与比他顺位高的人换位置,不然利润受损,这种均衡叫 locally envy-free equilibrium(也称symmetric Nash equilibrium),对应广告主的报价策略不再是如实报价,详细可见文献

  • GSP优点缺点总结 :
    • 计算简单 :仅需一个简单公式,容易落地
    • 平台收入高 :收入更高,对照VCG和GSP的分析图中第二行可得
    • 容易解释 :按照下一位出价计费,简单易懂
    • DSIC讨论 :在广告主是效用最大化类型时,GSP不是 DSIC的(有文献提到,在广告主是Value最大化类型时,GSP机制是 DSIC 的)
    • 均衡性讨论 :GSP存在多个均衡,GSP的其中一个均衡结果和VCG等价(注:此时因为扣费大于VCG,所以平台营收会比VCG更高)
      • 问题:这里的与VCG等价是说,在这个均衡状态下,大家都会说真话吗?存在部分竞拍者会试探低价吧?

SW最大化-GSP机制关于点击率的升级

  • 下面的内容主要考虑关于点击广告(按点击售卖的广告)场景,目标还是如何优化社会福利,更好的实现社会福利最大化,提高资源分配效率

GSP

  • 普通的GSP认为点击率只与广告位置有关,与广告主无关,未考虑不同竞拍者(广告实体)的点击率在同一个位置会不同
  • 下文中也称广告自身的点击率为广告质量分

wGSP

  • wGSP(weighted GSP)引入一个与竞拍者 \(i\) 相关的点击率 \(\beta_i\)(也称为广告质量分)
    • 注:wGSP并没有假设广告在不同位置会有不同的广告质量分(理解:这里的质量分是与广告位置无关的,用户和广告之间的匹配分数)
  • 此时社会福利是(\(n\) 个广告主, \(k\) 个资源位):
    $$ SW = \sum_{i=1}^n \sum_{j=1}^k v_i \beta_i \alpha_j $$
  • 广告主的效用是:\(u_i = \beta_i \alpha_j(v_i - p_i)\),注:效用也是效用最大化类型广告主的优化目标
  • wGSP分配规则 :按照 \(\beta b \) 排序
  • wGSP计费规则为:
    $$ p_i = \frac{\beta_{i+1} b_{i+1}}{\beta_i} $$

iGSP

  • wGSP没有考虑广告在不同位置会有不同的广告质量分(点击率),实际上,不同位置上、同一位置不同上下文情况下广告的点击率均会有不同
  • iGSP(iterated GSP)考虑了广告在不同位置会有不同的广告点击率,但仅仅可以在做到2个资源位同时拍卖的情况下,最大限度保证 existence of efficient equilibria ,3个资源位的情况还没解决
    • 问题:如何理解最大限度保证 existence of efficient equilibria?
  • iGSP分配规则 :逐个位置拍卖,逐个位置预估考虑到上下文、位置因素下的每个广告主的点击率 \(\gamma_{ij}\),然后按照价高者得
  • iGSP计费规则 :每次拍卖时,对当前拍卖位置的首位广告主(当前位置竞胜者)进行二价计费:
    $$p_{1j} = \frac{\gamma_{2j}b_2}{\gamma_{1j}}$$
  • 竞胜后的广告主不参与下一轮位置竞争,遍历拍卖至资源分配完
  • iGSP的总结:相对于wGSP,拍卖流程更复杂,但因为考虑到广告在不同位置下的质量分,会使得社会福利更优(资源配置效率更高)

平台收入最大化的拍卖机制

  • 满足 DSIC 性质,且使得平台收入最大化(Revenue最大化,简称Rev最大化)的机制称为 最优机制(optimal mechanism)

Rev最大化-VCG与GSP的平台收入比较

  • GSP的收入更高,对平台来说,GSP机制更受欢迎
  • GSP机制不再是 DSIC 的(从前文看,广告主有隐瞒估值,刻意报低价的动机),但GSP机制有均衡性质(注意:均衡结果是最起码的要求,否则从长期博弈结果来看短期的平台营收都不可持续)

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    换个角度解释这个现象,GSP机制不是DSIC的,广告主有隐瞒估值低报价的动机,所以长期来看会随着广告主低报价整体社会福利不如VCG,使得虽然在分蛋糕方面GSP有优势但在做大蛋糕方面存在不利因素,此消彼长,长期看平台营收GSP一定会打折扣。GSP有不错的均衡性质尚且如此,更何况其他粗暴魔改扣费规则的机制了,所以事情看来没有那么简单


Rev最大化-单物品拍卖的最优机制

  • SP机制:Second Price,二价计费
  • SP+保留价机制:二价计费,同时带有保留价,当低于保留价时,不售卖,高于保留价时,保留价参与二价计算(即广告主计费不会低于保留价)
  • Myerson机制:可以获得最大化期望收益的最优机制
    • 注:在竞拍者私有估值服从独立同步分布时,Myerson拍卖机制等价于SP+保留价 \(\varphi_i^{-1}(0)\) 机制
  • 其他补充:

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    首先定义虚拟估值 \(\varphi_i(v_i) = v_i - \frac{1-F_i(v_i)}{f_i(v_i)}\),它和私有估值 \(v_i\) 以及分布 \(F\) 有关;然后可以论证在满足DSIC的机制空间上对期望收益最大化 ,可以等同于在同一个空间对期望虚拟福利最大化 ,这样原本关心的收益最大化问题就转变为了分配最优化问题, \(Rev = \max\sum_{i=1}^n \varphi_i(v_i) x_i\),与前文章节中 \(SW = \max\sum_{i=1}^n v_i x_i\) 相比仅仅是将私有估值 \(v_i\) 转换为对应的虚拟估值 \(\varphi_i(v_i)\),其他分配规则的细节以及扣费规则都与社会福利最大化一模一样;最后只需要保证 \(\varphi_i(v_i)\) 是单调的,即私有估值的分布 \(F_i(v_i)\) 是正则分布 ,许多常见分布基本都是正则分布,例如normal、lognormal、uniform and exponential distributions等;非正则分布包括多峰分布和长尾分布,分配的单调性是机制DSIC性质的前提。论证过程可详见文献
    可以发现虚拟估值 \(\varphi_i(v_i)\) 可能为负,在分配的过程中如果遇到 \(\varphi_i(v_i) < 0\) 的竞拍者会被剥夺竞拍资格,如果所有竞拍者的虚拟估值均为负,则流拍,所以 \(\varphi_i^{-1}(0)\) 即虚拟估值为0的逆函数起到了个性化保留价的功能。如果假设所有竞拍者的私有估值服从独立但不同分布,则不仅会有各自不同的保留价,还会遇到如实报价情况下报价高,但虚拟估值不一定高,导致没有竞得更好的资源位,也好理解,此时虚拟估值代表了个性化自己和自己对比的报价意愿强烈程度;如果假设所有竞拍者的私有估值服从独立同分布,因为估值分布相同则虚拟估值函数 \(\varphi\) 也相同,又因为估值分布 \(F\) 服从正则分布,则 \(\varphi\) 严格递增,那么虚拟估值最高的竞拍者就是私有估值最高的竞拍者,这样虚拟福利最大化机制就和带有保留价 \(\varphi_i^{-1}(0)\) 的二价机制相同,回答上文提到的两个竞拍者估值服从独立同分布 \([0,1]\) 均匀分布的例子,\(\varphi_i^{-1}(0)=\frac{1}{2}\) S确实是最优保留价。以下是单物品拍卖的几个机制对比:


Rev最大化-多物品拍卖下GSP的改造

  • Myerson拍卖无法应对多物品拍卖位置,实际上,自1981年Myerson拍卖问世以来,至今没有找到多物品拍卖设定下的最优拍卖机制,多物品拍卖设定下的最优拍卖机制(满足 DSIC 的收益最大化拍卖)设计是一个开放性问题
  • 在多物品拍卖场景,广告多坑位拍卖一般围绕改造 GSP 机制来近似实现最优结果,具体来说,是将Myerson机制和GSP机制结合起来

mGSP

  • mGSP(myerson GSP)机制,将Myerson保留价技术直接应用到wGSP机制上

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    和单物品拍卖的设计思路类似,Myerson保留价最核心的虚拟估值依赖广告主的私有估值分布,系统可以酌情根据独立同分布的颗粒度进行假设的调整,例如客户之间完全独立不同分布、相同搜索词的客户之间独立同分布、整体流量客户独立同分布等。因为广告系统是多轮拍卖系统,假设广告主是如实报价,则私有估值分布可以根据广告主历史报价进行不同粒度的分布拟合,从而得到虚拟估值。有了虚拟估值和保留价,在分配规则方面有两种类型可做尝试:Eager模式,先过滤后排序,即先根据保留价过滤没有竞争力的广告主,再按照虚拟估值排序;Lazy模式,先排序后过滤。Eager模式对最高报价无法胜出保留价的情形更友好,Lazy模式对第2高报价无法胜出保留价的情形更友好,多数情况下Eager模式在提营收方面会比Lazy更有优势

aGSP

  • aGSP(anchoring GSP)机制,是对mGSP机制一种松弛方式

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    第二种是aGSP(anchoring GSP)机制,是对mGSP机制一种松弛方式,业务落地过程中虚拟估值的求逆计算和私有估值的正则分布要求等均会让机制实现不够简洁且解释性较差,略牺牲效果的情况下精简机制设计也是可接受的迭代方向。首先保留价的计算方法和mGSP机制相同,一般保留价的颗粒度会选择数据积累较为充分的粒度。其次主要差异点就是将虚拟估值由 \(\varphi_i(v_i) = v_i - \frac{1-F_i(v_i)}{f_i(v_i)}\) 简化为 \(\varphi_i(v_i) = v_i - r_i\),如果假设私有估值分布是均匀分布,化简的表达式就非常接近,求逆也方便,而且业务含义与myerson思路很吻合,报价竞争力更多看重每个广告主超出个性化保留价的那部分

rGSP

  • rGSP(reserve GSP)机制,是对aGSP机制更加进一步的松弛

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    因为有文献提出,为了解决私有估值和虚拟估值趋势不一致问题,虚拟估值可以仅用于个性化保留价的过滤,分配和扣费依然按照私有估值进行,这样虽然对营收有折损但是机制实现更加简洁且易解释


一些讨论

  • 机制设计应该关注用户体验 :相对免费资源位置,付费资源位置本质是在牺牲用户体验,换取社会福利和平台收入,机制设计时还需要考虑用户体验,否则如果用户失去对付费资源的关注度,则平台将彻底失去流量变现机会
  • 未来方向:
    • 广告主偏好:论文主要是以效用Utility最大化为目标,后续可考虑以价值Value最大化为目标的情况
    • 结合自动出价(Auto-Bidding):自动出价的场景越来越多,但相关的机制研究较少
    • 基于学习的机制(数据驱动)
    • 生成式拍卖

附录:社会福利和流动性福利的讨论

  • 社会福利(Social Welfare) :指的是整体广告主的价值和,单个广告主对单个广告位置的价值 = 广告主获得广告位的概率 * 广告位对广告主的价值
    • \(n\) 个竞拍者的社会福利可表示为
      $$SW = \sum_{i=1}^n v_i x_i$$
      • 其中 \(x_i\) 是竞拍者 \(i\) 获得物品的分配概率,\(v_i\) 是竞拍者 \(i\) 对该物品的估值
    • 社会福利的另一个视角:广告主效用为0时(即商家说真话且按照一价计费时),社会福利等于买家从广告主手里获得的收入 ,所以社会福利也可以表达为 在满足 IR 的情况下,社会福利等于买家可以从广告主手里获得的最大收入
      • 对最大的理解 :这里最大是指刚好满足 IR,即商家效用为0时的值,是社会福利定义里面针对约束而言的“最大”,拍卖机制中常说的社会福利最大化的“最大”是分配效率
      • 机制拍卖的目标 :这个视角同时暗示了,平台收入小于等于社会福利 ,平时我们拍卖机制设计中,最大化社会,一方面在提升资源分配率 ,另一方面也等价于是在提升平台收入空间(因为在IR约束下,平台收入不会超过社会福利)
  • 流动性福利(Liquid welfare)【未找到精确定义,待补充】 :流动性福利是指存在预算约束情况下的社会福利(目前看到的都是预算约束下的流动性社会福利定义),表示在不违反财务约束的情况下可以从竞拍者中提取的最大收入 ,Auto-bidding and Auctions in Online Advertising: A Survey, 202408, Google 中有相关的定义(Truthful Auctions for Automated Bidding in Online Advertising, IJCAI 2023, Alibaba 中有ROI约束+预算约束下的定义)
    • \(n\) 个竞拍者的流动性福利可表示为
      $$\text{LW}=\sum_{i\in[n],u_{i}(t_{i},\mathbf{t}^{\prime})\geq 0}\min\left(\color{red}{\frac{v_{i }(\mathbf{t}^{\prime})}{R_{i}}},B_{i}\right)$$
      • 其中 \(R_i,B_i,v_i(\mathbf{t}^{\prime})\) 分别表示广告主设置的ROI,预算和广告主的累计价值
      • 注意,其实 \(\color{red}{\frac{v_{i }(\mathbf{t}^{\prime})}{R_{i}}}\) 就是ROI出价下的社会福利,为了方便理解,可以推导出价点在ROI上的商家的曝光 \(j\) 上的私有价值等于 \(CTR_{ij} \times CVR_{ij} \times Price_{ij} \times \frac{1}{ROI}\),而广告主 \(i\) 的累计收益为 \(\color{red}{v_i(\mathbf{t}^{\prime})} = \sum_j CTR_{ij} \times CVR_{ij} \times Price_{ij}\)
  • 流动性福利和社会福利的本质是一样的(可以理解为是同一个指标在不同场景下的不同定义),都是在满足一定约束条件下,买家可以从广告主手里获得的最大收入(这里的最大是针对约束而言的)
    • 社会福利 :只有 IR 约束 ,这个 IR 约束主要针对出价,出价就是商家的私有价值,可以是 ROI 约束 或 CPA 约束
    • 流动性福利 :除了 IR 约束,还有预算约束
    • 在预算约束无限时(或不生效时) ,社会福利等价于流动性福利 ,此时有:
      $$SW = LW = \sum_{i\in[n],u_{i}(t_{i},\mathbf{t}^{\prime})\geq 0} \color{red}{\frac{v_i(\mathbf{t}^{\prime})}{R_i}}$$

CA——多任务学习总结

多任务学习,multi-task learning

  • 参考链接:
    • 多任务学习中损失函数权重的自动调整:包含一些详细的推导
    • 多目标优化(八): 多任务之连续帕累托解
    • 多任务学习漫谈(一):以损失之名
    • 多任务学习漫谈(二):行梯度之事
    • 多任务学习漫谈(三):分主次之序

多任务学习的结构

  • 预估任务中一般包含ESMM及扩展,MMoE及相关变体
  • NLP中的MoE则是挑选部分网络,会丢弃部分网络

多任务学习的损失函数权重设置

基于人工经验的人工优化

  • 一般思想是对齐损失函数均值,并按照业务偏好有所倾斜,如果愿意花时间尝试,往往能拿到不错的结果

基于贝叶斯推论的权重优化

  • 基于不确定性的权重设置方法(Uncertainty Weighting)
  • 基本公式
    $$
    L(\mathbf{W}, \sigma_1, \sigma_2,…,\sigma_K) = \sum_{k=1}^K \frac{1}{2\sigma^2}L(\mathbf{W}) + \log \sigma^2
    $$
    • 上述公式可通过推导得出Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
      • 可以推导,无论是回归问题还是分类问题(也可以是分类和回归问题的混合),都可以按照上面的方法设置损失函数(分类问题证明中会使用到一个近似值,不是严格推导)
      • 推导是在假设
    • \(\sigma\) 是可学习的参数,初始设置固定值,然后使用梯度更新学习即可
    • 使用简单,实际使用时效果也确实不错,建议人工调参也可以在先使用该方案拿到权重量级后继续

帕累托最优权重优化

  • 原始论文:Multi-Task Learning as Multi-Objective Optimization

  • 内积的含义:向量A到向量B的投影长度与向量B长度的乘积

  • Algorithm1展示的是,对于两个任务的情况,图示展示了二维向量的情况,可以通过判断向量之间的关系确定求解 \(\alpha\) 的方式

    • Algorithm2中的FrankWolfeSlover算法则是对Algorithm1的多任务扩展
  • 其他参考,阿里巴巴多任务学习帕累托最优论文:A Pareto-Efficient Algorithm for Multiple Objective Optimization in E-Commerce Recommendation


损失函数优化

损失函数归一化

可用于解决由于不同任务损失函数量级差异带来的问题

普通版本

$$
L_{norm} = \frac{L_k(\mathbf{W})}{L_0(\mathbf{W_0})}
$$

  • 使用各个任务自己的第一次输出的损失函数作为基础损失函数,其中 \(L_0(\mathbf{W_0}\) 为第一次计算loss的到的损失函数
滑动平均版本

$$
L_{base} = \alpha L_{base} + (1-\alpha) L_k \\
L_{norm} = \frac{L_k(\mathbf{W})}{L_{base}} \\
$$

  • 使用滑动平均来记录基础损失函数,该方案可进一步减少由于初始化损失误差过大带来的问题

梯度归一化(GradNorm)

  • 原始论文:GradNorm: Gradient Normalization for Adaptive Loss Balancing in Deep Multitask Networks
  • 核心思想是对各任务的损失函数进行加权(\(w_i\))求和得到更新共享参数的损失函数
  • “GradNorm”这个名字的由来是因为权重 \(w_i\) 是与梯度2范数的期望等有关的?
  • 公式中 \(w_i\) 是各个任务损失函数对共享参数损失函数的权重,该权重初始值为1,在训练过程中逐步更新,每一步最后都保持该权重加和为 \(T\) ( \(T\) 为任务数量,即保证权重均值为1)
  • 问题:文中没有明确各个任务各自的参数如何更新,猜测各自更新即可

最佳实践

  • 一般情况下,根据业务特点,尽量使用类似于ESMM结构
  • 权重设置尝试次序:
    • 对损失函数进行归一化(梯度归一化好像效果一般?)
    • 权重设置时,先使用不确定性权重(Uncertainty Weighting)跑一版,得到基线
    • 在Uncertainty Weighting的基础上,人工可以根据业务需要微调,可以偏向于需要的任务
    • 帕累托最优实现复杂,且不一定有收益
      • 复杂体现在:需要在每个batch上重新求解最优化问题,得到当前的loss权重(用上一个batch的梯度求解这一个batch的最优权重)

CA——各种拍卖机制总结

  • 参考链接:
    • 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)

Myerson拍卖

  • Myerson机制就是单物品拍卖下,可以获得最大化期望收益的最优机制

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    Myerson机制就是可以获得最大化期望收益的最优机制。首先定义虚拟估值 \(\varphi_i(v_i) = v_i - \frac{1-F_i(v_i)}{f_i(v_i)}\),它和私有估值以及分布有关;然后可以论证在满足DSIC的机制空间上对期望收益最大化 ,可以等同于在同一个空间对期望虚拟福利最大化 ,这样原本关心的收益最大化问题就转变为了分配最优化问题, \(Rev = \max\sum_{i=1}^n \varphi_i(v_i) x_i\),与前文2.1.章节中 \(SW = \max\sum_{i=1}^n v_i x_i\) 相比仅仅是将私有估值 \(v_i\) 转换为对应的虚拟估值 \(\varphi_i(v_i)\),其他分配规则的细节以及扣费规则都与社会福利最大化一模一样;最后只需要保证 \(\varphi_i(v_i)\) 是单调的,即私有估值的分布 \(F_i(v_i)\) 是正则分布 ,许多常见分布基本都是正则分布,例如normal、lognormal、uniform and exponential distributions等;非正则分布包括多峰分布和长尾分布,分配的单调性是机制DSIC性质的前提。论证过程可详见文献
    可以发现虚拟估值 \(\varphi_i(v_i)\) 可能为负,在分配的过程中如果遇到 \(\varphi_i(v_i) < 0\) 的竞拍者会被剥夺竞拍资格,如果所有竞拍者的虚拟估值均为负,则流拍,所以 \(\varphi_i^{-1}(0)\) 即虚拟估值为0的逆函数起到了个性化保留价的功能。如果假设所有竞拍者的私有估值服从独立但不同分布,则不仅会有各自不同的保留价,还会遇到如实报价情况下报价高,但虚拟估值不一定高,导致没有竞得更好的资源位,也好理解,此时虚拟估值代表了个性化自己和自己对比的报价意愿强烈程度;如果假设所有竞拍者的私有估值服从独立同分布,因为估值分布相同则虚拟估值函数 \(\varphi\) 也相同,又因为估值分布 \(F\) 服从正则分布,则 \(\varphi\) 严格递增,那么虚拟估值最高的竞拍者就是私有估值最高的竞拍者,这样虚拟福利最大化机制就和带有保留价 \(\varphi_i^{-1}(0)\) 的二价机制相同,回答上文提到的两个竞拍者估值服从独立同分布 \([0,1]\) 均匀分布的例子,\(\varphi_i^{-1}(0)=\frac{1}{2}\) S确实是最优保留价。以下是单物品拍卖的几个机制对比:


VCG

  • Vickrey-Clarke-Groves (VCG)

普通的VCG

WVCG

  • Weighted Vickrey-Clarke-Groves (WVCG),带权重的VCG机制,是对原始VCG的改进,收入高于VCG机制

VVCA

SW-VCG

  • SW-VCG, Score-Weighted VCG
  • 原始论文:Learning-Based Ad Auction Design with Externalities: The Framework and A Matching-Based Approach
  • 博客:KDD’23 | Score-Weighted VCG:考虑外部性的智能拍卖机制设计

GSP

  • 一些对比 from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇):

普通的GSP

uGSP

  • Utility-based Generalized Second Price auction (uGSP),最早提出于论文 Optimising trade-offs among stakeholders in ad auctions, Microsoft Research, 2014. 是对GSP的一种扩展,其分配规则中的排序公式为:
    $$ r_i(b_i) = \lambda_1 \times b_i \times pCTR_i + o_i $$
    • 其中 \(o_i\) 表示其他效用指标,比如作者使用了 \(o_i = \lambda_2 \times pCTR_i + \lambda_3 \times pCVR_i\)
  • 支付规则与GSP相同,都是通过下一位的排序分反算计费

wGSP

  • wGSP(weighted GSP,weighted体现在广告质量分的引入),排序时会在出价上乘以这个权重 \(\beta \cdot bid\) 来排序

mGSP

  • mGSP(myerson GSP)机制,将Myerson保留价技术直接应用到wGSP机制上

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    和单物品拍卖的设计思路类似,Myerson保留价最核心的虚拟估值依赖广告主的私有估值分布,系统可以酌情根据独立同分布的颗粒度进行假设的调整,例如客户之间完全独立不同分布、相同搜索词的客户之间独立同分布、整体流量客户独立同分布等。因为广告系统是多轮拍卖系统,假设广告主是如实报价,则私有估值分布可以根据广告主历史报价进行不同粒度的分布拟合,从而得到虚拟估值。有了虚拟估值和保留价,在分配规则方面有两种类型可做尝试:Eager模式,先过滤后排序,即先根据保留价过滤没有竞争力的广告主,再按照虚拟估值排序;Lazy模式,先排序后过滤。Eager模式对最高报价无法胜出保留价的情形更友好,Lazy模式对第2高报价无法胜出保留价的情形更友好,多数情况下Eager模式在提营收方面会比Lazy更有优势

aGSP

  • aGSP(anchoring GSP)机制,是对mGSP机制一种松弛方式

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    第二种是aGSP(anchoring GSP)机制,是对mGSP机制一种松弛方式,业务落地过程中虚拟估值的求逆计算和私有估值的正则分布要求等均会让机制实现不够简洁且解释性较差,略牺牲效果的情况下精简机制设计也是可接受的迭代方向。首先保留价的计算方法和mGSP机制相同,一般保留价的颗粒度会选择数据积累较为充分的粒度。其次主要差异点就是将虚拟估值由 \(\varphi_i(v_i) = v_i - \frac{1-F_i(v_i)}{f_i(v_i)}\) 简化为 \(\varphi_i(v_i) = v_i - r_i\),如果假设私有估值分布是均匀分布,化简的表达式就非常接近,求逆也方便,而且业务含义与myerson思路很吻合,报价竞争力更多看重每个广告主超出个性化保留价的那部分

rGSP

  • rGSP(reserve GSP)机制,是对aGSP机制更加进一步的松弛

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    因为有文献提出,为了解决私有估值和虚拟估值趋势不一致问题,虚拟估值可以仅用于个性化保留价的过滤,分配和扣费依然按照私有估值进行,这样虽然对营收有折损但是机制实现更加简洁且易解释

iGSP

  • iGSP(iterated GSP)可以最大限度保证 existence of efficient equilibria,但也仅限2个资源位同时拍卖,如果遇到3个及以上就仍然是一个 open question,不过还算乐观的情况是移动端的资源位往往较少

sGSP

  • 原始论文:Revenue analysis of a family of ranking rules for keyword auctions
  • sGSP(squashing GSP)

    from 万字长文,漫谈广告技术中的拍卖机制设计(经典篇)
    另外一类不是在报价因子上做文章,而是在wGSP的广告质量点击率上做文章,通过对广告质量点击率进行挤压,也能达到提升营收的效果,这类机制叫做sGSP(squashing GSP)机制。分配规则是按照 \(\beta^s_i b_i\) 进行排序,其中 \(s\) 就是挤压因子,扣费规则按照 \(p_i = \frac{\beta^s_{i+1} b_{i+1}}{\beta^s_i} = \left( \frac{\beta_{i+1}}{\beta_i} \right)^s b_{i+1}\)。该挤压因子能够体现三方面的结论:1)Efficiency视角:当 \(s=1\) 是社会福利最大化及Efficiency最大化,凡是 \(s \neq 1\) 的调节都提升平台的短期收入,从而影响广告主价值;2)Relevance视角:只要 \(s\) 往大调节,整体点击率就会提升,相关性就会变好;3)Revenue视角,当相邻广告质量随排序递减即 \(\frac{\beta_{i+1}}{\beta_i} < 1\) ,在不改变排序的情况下调小 \(s\),\(p_i\)变大,利好营收增加,当相邻广告质量随排序递增即 \(\frac{\beta_{i+1}}{\beta_i} < 1\),在不改变排序的情况下调大 \(s\),\(p_i\)变大,利好营收增加。这一方案为了进一步挖掘营收空间,可以升级为分位置调控挤压因子等,具体详见文献


Deep GSP


Deep Neural Auction (DNA)


NMA

  • 原始论文:NMA: Neural Multi-slot Auctions with Externalities for Online Advertising, 2022, ArXiv preprint, Meituan

(RegretNet)Optimal Auctions through Deep Learning

  • 原始论文:Optimal Auctions through Deep Learning,ICML 2019,London School of Economics & Harvard University
  • 博客:【论文阅读】Optimal Auctions Through Deep Learning

(AMA)Affine maximizer auction

  • 参考论文:A Scalable Neural Network for DSIC Affine Maximizer Auction Design, NeurIPS 2023, PKU,Spotlight

附录:一些特殊拍卖

BDFPA

  • 折价一价拍卖(bid-discount first-price auction,BDFPA),来源于文章Budget-Constrained Auctions with Unassured Priors: Strategic Equivalence and Structural Properties, Tencent

PFPA

  • pacing first-price auction

BROA

  • Bayesian revenue-optimal auction

BDSPA

  • bid-discount second-price auction

PSPA

  • pacing second-price auction

综合对比


集资拍卖相关

(JAMA)Joint-Bidding-in-Ad-Auctions

  • 参考论文:Joint Bidding in Ad Auctions, pp 344–354, TAMC 2024, Meituan

(JRegNet)Joint Auction in the Online Advertising Market

  • 参考论文:Joint Auction in the Online Advertising Market, KDD 2024, Meituan
1…353637…63
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

630 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4