- 参考链接:
TD 误差
- 时间差分误差,TD error
- 定义如下:
$$
\delta_{\theta}(s, a, s’) = R(s, a, s’) + \gamma v_{\theta}(s’) - v_{\theta}(s)
$$ - \(R(s,a,s’)=r(s,a,s’)\),表示从状态 \(s\) 执行 \(a\) 之后转移到 \(s’\) 获得的立即回报
- TD error是针对确定的 \(s’\) 来说的
优势函数
- 优势函数,Advantage Function
$$
A_{\theta}(s,a) = \mathbb{E}_{s’\sim P}[\delta_{\theta}(s, a, s’)] = \mathbb{E}_{s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s) = Q_{\theta}(s,a) - v_{\theta}(s)
$$ - 优势函数是TD误差关于状态 \(s’\) 的期望,即从状态 \(s\) 执行 \(a\) 之后关于状态 \(s’\) 的期望
贝尔曼误差
- 贝尔曼误差
$$
\epsilon_{\theta}(s) = \mathbb{E}_{a\sim \pi} [A_{\theta}(s,a)] = \mathbb{E}_{a\sim \pi,s’\sim P}[\delta_{\theta}(s, a, s’)] = \mathbb{E}_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s)
$$ - 贝尔曼误差是优势函数关于动作 \(a\) 的期望
期望贝尔曼误差
- 期望贝尔曼误差
$$
\mathbb{E}_{s\sim \mu} [\epsilon_{\theta}(s)] = \mathbb{E}_{s\sim \mu}[\mathbb{E}_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)]] - \mathbb{E}_{s\sim \mu}[ v_{\theta}(s)]
$$ - 贝尔曼误差是优势函数关于动作 \(a\) 的期望