- 参考链接:
TD误差
- 时间差分误差,TD error
- 定义如下:
$$
\delta_{\theta}(s, a, s’) = R(s, a, s’) + \gamma v_{\theta}(s’) - v_{\theta}(s)
$$ - \(R(s,a,s’)=r(s,a,s’)\),表示从状态\(s\)执行\(a\)之后转移到\(s’\)获得的立即回报
- TD error是针对确定的\(s’\)来说的
优势函数
- 优势函数,Advantage Function
$$
A_{\theta}(s,a) = E_{s’\sim P}[\delta_{\theta}(s, a, s’)] = E_{s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s) = Q_{\theta}(s,a) - v_{\theta}(s)
$$ - 优势函数是TD误差关于状态\(s’\)的期望,即从状态\(s\)执行\(a\)之后关于状态\(s’\)的期望
贝尔曼误差
- 贝尔曼误差
$$
\epsilon_{\theta}(s) = E_{a\sim \pi} [A_{\theta}(s,a)] = E_{a\sim \pi,s’\sim P}[\delta_{\theta}(s, a, s’)] = E_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s)
$$ - 贝尔曼误差是优势函数关于动作\(a\)的期望
期望贝尔曼误差
- 期望贝尔曼误差
$$
E_{s\sim \mu} [\epsilon_{\theta}(s)] = E_{s\sim \mu}[E_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)]] - E_{s\sim \mu}[ v_{\theta}(s)]
$$ - 贝尔曼误差是优势函数关于动作\(a\)的期望