RL——TD误差和优势函数的区别


TD 误差

  • 时间差分误差,TD error
  • 定义如下:
    $$
    \delta_{\theta}(s, a, s’) = R(s, a, s’) + \gamma v_{\theta}(s’) - v_{\theta}(s)
    $$
  • \(R(s,a,s’)=r(s,a,s’)\),表示从状态 \(s\) 执行 \(a\) 之后转移到 \(s’\) 获得的立即回报
  • TD error是针对确定的 \(s’\) 来说的

优势函数

  • 优势函数,Advantage Function
    $$
    A_{\theta}(s,a) = \mathbb{E}_{s’\sim P}[\delta_{\theta}(s, a, s’)] = \mathbb{E}_{s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s) = Q_{\theta}(s,a) - v_{\theta}(s)
    $$
  • 优势函数是TD误差关于状态 \(s’\) 的期望,即从状态 \(s\) 执行 \(a\) 之后关于状态 \(s’\) 的期望

贝尔曼误差

  • 贝尔曼误差
    $$
    \epsilon_{\theta}(s) = \mathbb{E}_{a\sim \pi} [A_{\theta}(s,a)] = \mathbb{E}_{a\sim \pi,s’\sim P}[\delta_{\theta}(s, a, s’)] = \mathbb{E}_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s)
    $$
  • 贝尔曼误差是优势函数关于动作 \(a\) 的期望

期望贝尔曼误差

  • 期望贝尔曼误差
    $$
    \mathbb{E}_{s\sim \mu} [\epsilon_{\theta}(s)] = \mathbb{E}_{s\sim \mu}[\mathbb{E}_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)]] - \mathbb{E}_{s\sim \mu}[ v_{\theta}(s)]
    $$
  • 贝尔曼误差是优势函数关于动作 \(a\) 的期望