RL——强化学习中的方差与偏差


MC和TD的方差分析

Multi-Step TD

  • Multi-Step TD,也称为n-step TD
  • 将TD中的即时奖励替换成采用未来多个时间片的奖励和,同时\(\gamma V(s_{t+1})\)值替换成\(\gamma^n V(s_{t+n})\)
  • 详情如下:

\(\lambda\)-return

  • \(\lambda\)-return是在Forward视角下,对n-step TD的各个值进行加权求和
    $$
    G^{\lambda}_t = (1-\lambda) \sum^{N-1}_1 G_t^{(n)} + \lambda^{N-1} G_t^{(N)}
    $$
  • 其中 \(0\le \lambda \le 1\),当 \(\lambda=0\)且\(N=1\) 即为TD算法,当\(\lambda=1\)即为MC算法。
  • 注意:\((1-\lambda)\)是为了配平整个式子,保证加权平均的权重和为1

TD(\(\lambda\))

  • TD(\(\lambda\))方法是在Backward视角下,对n-step TD的各个值进行加权求和
    • TD(\(\lambda\))可以解决\(\lambda\)-return需要等到episode结束才能获得状态估计量的缺点?
  • 资格迹【TODO】: