RL——TD误差和优势函数的区别

参考链接：
- TD误差 vs 优势函数 vs贝尔曼误差

TD 误差

时间差分误差，TD error
定义如下：
$$
\delta_{\theta}(s, a, s’) = R(s, a, s’) + \gamma v_{\theta}(s’) - v_{\theta}(s)
$$
\(R(s,a,s’)=r(s,a,s’)\)，表示从状态 \(s\) 执行 \(a\) 之后转移到 \(s’\) 获得的立即回报
TD error是针对确定的 \(s’\) 来说的

优势函数

优势函数，Advantage Function
$$
A_{\theta}(s,a) = \mathbb{E}_{s’\sim P}[\delta_{\theta}(s, a, s’)] = \mathbb{E}_{s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s) = Q_{\theta}(s,a) - v_{\theta}(s)
$$
优势函数是TD误差关于状态 \(s’\) 的期望，即从状态 \(s\) 执行 \(a\) 之后关于状态 \(s’\) 的期望

贝尔曼误差

贝尔曼误差
$$
\epsilon_{\theta}(s) = \mathbb{E}_{a\sim \pi} [A_{\theta}(s,a)] = \mathbb{E}_{a\sim \pi,s’\sim P}[\delta_{\theta}(s, a, s’)] = \mathbb{E}_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s)
$$
贝尔曼误差是优势函数关于动作 \(a\) 的期望

期望贝尔曼误差

期望贝尔曼误差
$$
\mathbb{E}_{s\sim \mu} [\epsilon_{\theta}(s)] = \mathbb{E}_{s\sim \mu}[\mathbb{E}_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)]] - \mathbb{E}_{s\sim \mu}[ v_{\theta}(s)]
$$
贝尔曼误差是优势函数关于动作 \(a\) 的期望