RL——TD误差和优势函数的区别

TD误差

  • 时间差分误差,TD error
  • 定义如下:
    $$
    \delta_{\theta}(s, a, s’) = R(s, a, s’) + \gamma v_{\theta}(s’) - v_{\theta}(s)
    $$
  • \(R(s,a,s’)=r(s,a,s’)\),表示从状态\(s\)执行\(a\)之后转移到\(s’\)获得的立即回报
  • TD error是针对确定的\(s’\)来说的

优势函数

  • 优势函数,Advantage Function
    $$
    A_{\theta}(s,a) = E_{s’\sim P}[\delta_{\theta}(s, a, s’)] = E_{s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s) = Q_{\theta}(s,a) - v_{\theta}(s)
    $$
  • 优势函数是TD误差关于状态\(s’\)的期望,即从状态\(s\)执行\(a\)之后关于状态\(s’\)的期望

贝尔曼误差

  • 贝尔曼误差
    $$
    \epsilon_{\theta}(s) = E_{a\sim \pi} [A_{\theta}(s,a)] = E_{a\sim \pi,s’\sim P}[\delta_{\theta}(s, a, s’)] = E_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s)
    $$
  • 贝尔曼误差是优势函数关于动作\(a\)的期望

期望贝尔曼误差

  • 期望贝尔曼误差
    $$
    E_{s\sim \mu} [\epsilon_{\theta}(s)] = E_{s\sim \mu}[E_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)]] - E_{s\sim \mu}[ v_{\theta}(s)]
    $$
  • 贝尔曼误差是优势函数关于动作\(a\)的期望