GAE,Generalized advantage estimation,平衡了强化学习中的方差与偏差,常用于AC中
强化学习中的方差与偏差
- 参考链接:方差与偏差
GAE、\(\lambda\)-return、TD(\(\lambda\))的区别是什么?
参考链接:
强化学习中,GAE和TD(lambda)的区别是什么? - 动词大词动的回答 - 知乎
TD lambda: 用 n-step future reward估计value
GAE: 用n-step TD residual of value估计advantage