RL——PPO&TD3

参考链接：
- 强化学习之图解PPO算法和TD3算法

PPO

PPO的训练技巧

参考：影响PPO算法性能的10个关键技巧（附PPO算法简洁Pytorch实现）

为什么说PPO算法是on-policy的？

首先引入一个其他博主的理解：

PPO：依赖于importance sampling实现的off-policy算法在面对太大的策略差异时将无能为力（正在训练的policy与实际与环境交互时的policy差异过大），所以学者们认为PPO其实是一种on-policy的算法，这类算法在训练时需要保证生成训练数据的policy与当前训练的policy一致，对于过往policy生成的数据难以再利用，所以在sample efficiency这条衡量强化学习（Reinforcement Learning, RL）算法的重要标准上难以取得优秀的表现。
在推导TRPO和PPO的过程中
- 在将新策略$\pi$上的状态访问频率$\rho_{\pi}(\bf{s})$替换成旧策略的状态访问频率$\rho_{\pi_{old}}(\bf{s})$时，要求$\pi$与$pi_{old}$相聚不能太远，这就要求采样的样本不能是太早的策略，详情见《强化学习精要》P247（注意：此处$\pi$表达与书中相反）
- 在将新策略$\pi$上的动作采样替换为就策略$\pi_{old}$上的动作采样时，需要进行Importance Sampling，这要求了采样到的数据应该都是来源于同一个旧策略$\pi_{old}$
  - 来源于同一个旧策略说明：最好是更新一次参数清空一次Buffer，根据本人对一些PPO实现的观察，实际实现时做不到这样，一般一个episode更新一次Buffer，而当Batch Size小于episode的步数时，在一次episode中可能会进行多次更新，一种理解是，同一个episode中的多次更新策略不会变化太大，实际上分布也比较接近，可以看做是同一个？
TRPO和PPO均是从较新的策略中采样样本，然后通过Importance Sampling将数据分布误差进行修正，从而对当前策略进行更新，本质上可以看做是
PPO策略原本是需要当前策略采样的样本的，但是使用了Importance Sampling来减少on-policy方法的采样要求，但是PPO实际上还是需要当前策略产生的数据才能进行有效学习，为此，我们一般会使用一个Clip方法来限制PPO当前策略和旧策略的偏差，以保证数据的有效性
一些其他off-policy的方法也会使用Importance Sampling，但这些策略往往是从固定策略$\mu$采样的
- 这些方法的损失函数中会将样本权重按照$\frac{\pi}{\mu}$来进行修正动作的概率分布
- 这些off-policy方法与PPO方法最大的不同在于这些方法不需要限制当前策略与行为策略的距离（KL散度）
  - 问题：为什么这些off-policy方法不需要保证行为策略下的状态访问频率$\rho_{\mu}(\bf{s})$和目标策略下的状态访问频率$\rho_{\pi}(\bf{s})$一致？

TD3

TD3是对DDPG的改进，全称为Twin Delayed Deep Deterministic Policy Gradient Algorithm
有两个改进包含在名字中，Twin和Delayed
其他改进是在Actor 的target网络输出中，增加噪声

改进1：Twin

采用双Critic网络（训练网络和target网络均为双网络），缓解Q值高估问题

改进2：Delayed

Actor的目标是在Q值更新时，寻找最优的策略，如果Q值更新太快，容易波动，可以让Q值比较稳定了再更新Actor网络
具体做法，Critic网络更新$d$次再更新一次Actor

改进3：增加噪声

在Actor 的target网络输出中，增加噪声，可以缓解Q值高估问题

其他扩展

TD3+BC，在TD3的基础上，增加策略模仿，即对策略进行迭代时，损失函数中增加$loss_{BC} = (\pi_{\theta}(s) - a)^2$

RL——SAC

参考链接：
- 强化学习之图解SAC算法

RL——TRPO-PPO-目标函数基础推导

本文主要介绍TRPO、PPO相关内容

参考链接：
- 如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎：知乎
- 从TRPO到PPO（理论分析与数学证明）：博客
- TRPO公式推导:笔记式推导
- 信赖域策略优化(Trust Region Policy Optimization, TRPO):PPT式推导
- RL - Trust Region Policy Optimization (TRPO)

TRPO/PPO的推导

策略提升的引入

回顾强化学习的目标函数
$$ \eta(\pi) = E_{s_0, a_0,\cdots}[\sum\limits_{t=0}^{\infty}\gamma^t r(s_t)] $$
两个策略之间的关系（$\tilde{\pi}$是新策略，$\pi$是旧策略）
$$ \eta(\tilde{\pi}) = \eta(\pi) + E_{s_0,a_0,\cdots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty \gamma^t A_{\pi}(s_t,a_t)] $$
- 证明如下：
  $$
  \begin{aligned}
  E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty\gamma^t A_\pi(s_t,a_t)] &=E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty\gamma^t(Q_\pi(s_t,a_t)-V_\pi (s_t))]\\
  &=E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty\gamma^t(r(s_t)+\gamma V_\pi (s_{t+1})-V_\pi (s_t))]\\
  &=E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty\gamma^{t+1} V_\pi (s_{t+1})-\sum\limits_{t=0}^\infty\gamma^{t}V_\pi (s_t) + \sum\limits_{t=0}^\infty\gamma^t r(s_t)]\\
  &=E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=1}^\infty\gamma^{t} V_\pi (s_{t})-\sum\limits_{t=0}^\infty\gamma^{t}V_\pi (s_t) + \sum\limits_{t=0}^\infty\gamma^t r(s_t)]\\
  &=E_{s_0,a_0,\ldots\sim\tilde{\pi}}[-V_\pi(s_0) + \sum\limits_{t=0}^\infty\gamma^t r(s_t)] \quad — \sum\limits_{t=0}^\infty\gamma^{t+1} V_\pi (s_{t+1})\\
  &=-E_{s_0}[V_\pi(s_0)] + E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty\gamma^t r(s_t)]\\
  &=-\eta(\pi) + \eta(\tilde{\pi})
  \end{aligned}
  $$
显然，如果我们能找到一个策略$\tilde{\pi}$使得$E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty\gamma^t A_\pi(s_t,a_t)] \ge 0$成立，即可确保策略性能（目标函数）是单调递增的
- 但是，直接求解上式是非常困难的，因为策略$\tilde{\pi}$是未知的，无法用这个策略收集数据，下面我们先对这个形式进行变形，再通过其他方法近似求解

策略提升的变形

变形如下：
$$
\begin{aligned}
\eta({\tilde{\pi}}) - \eta({\pi}) &= E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty\gamma^t A_\pi(s_t,a_t)] \\
&= \sum\limits_s\rho_{\tilde{\pi}}(s)\sum\limits_a\tilde{\pi}(a|s)A_\pi(s,a)
\end{aligned}
$$
其中有
$$ \rho_\pi(s) = P(s_0=s) + \gamma P(s_1=s) + \gamma^2 P(s_2=s) + \ldots $$
证明如下：
$$
\begin{aligned}
\eta(\tilde{\pi}) - \eta(\pi) &= E_{s_0,a_0,\ldots\sim\tilde{\pi}}[\sum\limits_{t=0}^\infty \gamma^t A_{\pi}(s_t,a_t)]\\
&=\sum\limits_{t=0}^\infty\sum\limits_sP(s_t=s|\tilde{\pi})\sum\limits_a\tilde{\pi}(a|s)\gamma^tA_\pi(s,a)\\
&=\sum\limits_s\sum\limits_{t=0}^\infty\gamma^tP(s_t=s|\tilde{\pi})\sum\limits_a\tilde{\pi}(a|s)A_\pi(s,a)\\
&=\sum\limits_s\rho_{\tilde{\pi}}(s)\sum\limits_a\tilde{\pi}(a|s)A_{\pi}(s,a)
\end{aligned}
$$
对于$\sum\limits_s\rho_{\tilde{\pi}}(s)\sum\limits_a\tilde{\pi}(a|s)A_\pi(s,a)$来说，我们仍然难以求解，因为策略$\tilde{pi}$是未知的，我们无法用这个策略收集数据，所以我们使用旧的策略$\pi$来替换新策略$\tilde{\pi}$收集数据
对于状态部分，当新旧策略特别接近时，他们的状态访问分布会比较接近，我们可以利用MM（Majorization-Minimization）方法构造近似目标函数，可以证明，直接优化目标函数即可优化最优:
$$
\begin{aligned}
\eta(\tilde{\pi}) - \eta(\pi) &= \sum\limits_s\rho_{\tilde{\pi}}(s)\sum\limits_a\tilde{\pi}(a|s)A_{\pi}(s,a) \\
&\approx \sum\limits_s\rho_{\pi}(s)\sum\limits_a\tilde{\pi}(a|s) A_{\pi}(s,a) - \frac{4\epsilon \gamma}{(1-\gamma)^2} \cdot D_{\text{KL}}^\max\left(\pi(\cdot|s)|| \tilde{\pi}(\cdot|s)\right)
\end{aligned}
$$
- 其中的一些字符含义见下面的描述：在严格证明下，经过一系列推导后，我们可以得到最终优化问题是：
  $$ \theta = \arg\max_{\theta}\left[ \sum\limits_s\rho_{\pi_{\theta_{\text{old}}}}(s)\sum\limits_a\pi_\theta(a|s) A_{\pi_{\theta_{\text{old}}}}(s,a) - \frac{4\epsilon \gamma}{(1-\gamma)^2} \cdot D_{\text{KL}}^\max\left(\pi_{\theta_{\text{old}}}(\cdot|s)|| \pi_\theta(\cdot|s)\right)\right] $$
  - 其中：
    $$
    \begin{aligned}
    \epsilon &= \max_{s,a} A_\pi(s,a) \quad — s,a是所有可行状态动作，不属于具体分布\\
    D_{\text{KL}}^\max(\pi_{\theta_{\text{old}}}(\cdot|s)|| \pi_\theta(\cdot|s)) &= \max_s D_{\text{KL}}(\pi_{\theta_{\text{old}}}(\cdot|s)|| \pi_\theta(\cdot|s)) \quad — s是所有可行状态
    \end{aligned}
    $$
  - 对应求解伪代码
- MM方法是一种迭代优化算法，其核心思想是在每一步迭代中构造一个目标函数的下界（或上界），这个下界函数被称为“代理函数”。在每一步迭代中，不是直接优化原始的目标函数，而是优化这个更容易处理的代理函数。通过确保每次迭代都能增加（或减少）目标函数值，最终达到优化目标的目的。
- 可以通过严格的MM方法数学证明，保证这种状态分布的近似替换是正确的，即提升替换后的目标函数可以提升原始目标函数。在一些书籍或者博客中，这里可以严格证明，使用旧策略采样的状态分布后，新的目标函数是旧的目标函数的一个下界，且两者在就策略$\pi$处的值和梯度均相等（也就是说两者的一阶近似$f(x) \approx f(x_0) + f’(x_0)(x-x_0)$相同）（详细证明见：从TRPO到PPO（理论分析与数学证明）、如何看懂TRPO里所有的数学推导细节? - 小小何先生的回答 - 知乎）。这个证明较为复杂，有时间可以详细看看。
- 以上是最优形式，求解比较困难，所以，可以将上面式子的约束进行放松，用KL散度来保证新旧策略之间的差异不会太大即可，之后的TRPO和PPO都是这样做的，接下来的推导（除了重要性采样以外）则都是最优形式的近似
基于KL散度限制新旧策略的距离后，进一步地对于动作部分，可以用重要性采样来恢复动作分布，两步总结如下（以下$\approx$成立的约束是新旧策略之间的KL散度约束），此外，由于$\eta(\tilde{\pi})$的最大化本身与$\eta(\pi)$并不直接相关，所以接下来我们只需要关注他们的差值即可：
$$
\begin{aligned}
\eta(\tilde{\pi}) - \eta(\pi) &= \sum\limits_s\rho_{\tilde{\pi}}(s)\sum\limits_a\tilde{\pi}(a|s)A_{\pi}(s,a) \\
&\approx \sum\limits_s\rho_{\pi}(s)\sum\limits_a\tilde{\pi}(a|s) A_{\pi}(s,a) \quad — 限定新旧策略KL散度后可以约等于\\
&= \sum\limits_s\rho_{\pi}(s)\sum\limits_a q(a|s)\left[\frac{\tilde{\pi}(a|s)}{q(a|s)} A_{\pi}(s,a)\right] \\
&= \sum\limits_s\rho_{\pi}(s)\sum\limits_a\pi(a|s)\left[\frac{\tilde{\pi}(a|s)}{\pi(a|s)} A_{\pi}(s,a)\right]
\end{aligned}
$$
- 实际上，从重要性采样的视角来看，动作分布可以是基于任意策略$q(a|s)$采样得到的，只是一般相近策略进行重要性采样样本效率更高，所以一般都使用旧策略$\pi(a|s)$【PS：重要性采样也需要策略分布相近的，当策略分布之间差距过大时，也不利于重要性采样，可能出现样本采样效率低下或者数据稀疏导致的评估不准确的现象】
由于相对$\eta(\tilde{\pi})$来说，$\eta(\pi)$是常数，所以有最大化$\eta(\tilde{\pi})$，等价于最大化$\sum\limits_s\rho_{\pi}(s)\sum\limits_a\pi(a|s)\left[\frac{\tilde{\pi}(a|s)}{\pi(a|s)} A_{\pi}(s,a)\right]$即可，考虑到需要保证策略采样到的状态分布不能差距太大，我们的目标可以描述为如下的形式：
$$
\begin{aligned}
\max_{\theta_\text{new}} \quad \sum\limits_s\rho_{\pi_{\theta_\text{old}}}(s)&\sum\limits_a\pi_{\theta_\text{old}}(a|s)\left[\frac{\pi_{\theta_\text{new}}(a|s)}{\pi_{\theta_\text{old}}(a|s)} A_{\pi_{\theta_\text{old}}}(s,a)\right] \\
\text{s.t. } \quad \quad &D_{\text{KL}}(\pi_{\theta_\text{old}}, \pi_{\theta_\text{new}}) \le \delta
\end{aligned}
$$
一般也会写成期望的等价形式：
$$
\begin{aligned}
\max_{\theta_\text{new}} \quad &E_{s \sim \rho_{\pi_{\theta_\text{old}}}(s), a \sim \pi_{\theta_\text{old}}(a|s)}\left[\frac{\pi_{\theta_\text{new}}(a|s)}{\pi_{\theta_\text{old}}(a|s)} A_{\pi_{\theta_\text{old}}}(s,a)\right] \\
&\text{s.t. } \quad \quad E_{s \sim \rho_{\pi_{\theta_\text{old}}}(s)} \left[D_{\text{KL}}(\pi_{\theta_\text{old}}, \pi_{\theta_\text{new}})\right] \le \delta
\end{aligned}
$$
或者进一步简写成：
$$
\begin{aligned}
\max_{\theta_\text{new}} \quad &E_{s \sim \rho_{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}}\left[\frac{\pi_{\theta_\text{new}}(a|s)}{\pi_{\theta_\text{old}}(a|s)} A_{\pi_{\theta_\text{old}}}(s,a)\right] \\
&\text{s.t. } \quad \quad E_{s \sim \rho_{\pi_{\theta_\text{old}}}} \left[D_{\text{KL}}(\pi_{\theta_\text{old}}, \pi_{\theta_\text{new}})\right] \le \delta
\end{aligned}
$$
- 目标是原始目标等价的期望形式
- 约束则考虑了计算KL散度时在旧策略采样的状态分布上进行验证
至此，目标函数中采样策略（包括状态和动作）变成了之前的旧策略，总结一下有：
- 状态分布替换旧策略是基于新旧策略的差异不大来近似得到的，这个改动是MM（Majorization-Minimization）方法的思想，构造一个可以严格通过MM方法证明的近似目标函数$\sum\limits_s\rho_{\pi_{\theta_{\text{old}}}}(s)\sum\limits_a\pi_\theta(a|s) A_{\pi_{\theta_{\text{old}}}}(s,a) - \frac{4\epsilon \gamma}{(1-\gamma)^2} \cdot D_{\text{KL}}^\max\left(\pi_{\theta_{\text{old}}}(\cdot|s)|| \pi_\theta(\cdot|s)\right)$，这个目标函数的优化没有信赖域的概念，所以不是Trust Region方法
- 在构造近似目标函数后，进一步简化目标函数的等价形式为KL散度约束下的更简洁形式，此时算是Trust Region方法
- 动作分布替换旧策略是基于重要性采样实现的

TRPO简单理解

TRPO名字的由来

TRPO（Trust Region Policy Optimization）的名字来源于其核心方法——信任域（Trust Region）优化。
TRPO同时包含了Trust Region算法和MM（Majorization-Minimization）算法的思想：
- MM算法：推导过程中，在对策略提升部分进行转换时，使用的是MM算法的思想，构造了一个近似目标函数，同时证明了该近似目标函数与原始目标函数的关系（两者的梯度和值在当前策略处相等，且近似目标函数处处小于等于原始目标函数）；
- Trust Region算法：TRPO方法在每次迭代需要在KL散度约束内做更新优化，并且构造了一个KL散度约束的优化问题来近似求解，属于Trust Region方法的思想；
补充问题：MM算法、Trust Region算法、近端梯度下降算法，这三种方法的区别和关系是什么？
- MM算法 vs Trust Region算法：
  - 相同点：两者都是迭代优化方法，每次迭代都通过解决一个较简单的优化问题来逼近原始问题的解。
  - 异同点：
    - 构造方式: MM算法通过构造一个上界函数来近似目标函数，而Trust Region算法通过在一个信赖域内构造一个近似模型来优化目标函数。
    - 信赖域: Trust Region算法明确使用信赖域来限制每次迭代的步长，而MM算法没有这种信赖域的概念。
    - 适用范围: MM算法更适合处理凸优化问题，而Trust Region算法在处理非凸优化问题和大规模优化问题时表现更优。
- 近端梯度下降：近端梯度下降方法（Proximal Gradient Descent, PGD）是一种用于优化非光滑（nonsmooth）和复合目标函数的优化算法。它结合了梯度下降法和近端算子（proximal operator），可以有效处理带有非光滑正则化项的优化问题。该方法PPO和TRPO都没有用到

TRPO解法思路

近似求解上述式子，用一阶梯度近似目标，用二阶梯度近似约束，从而得到一个关于参数最优化问题
基于共轭梯度法可以求解该问题

GAE

GAE（Generalized Advantage Estimation，广义优势估计）是一种用于估计策略梯度算法中优势函数的方法。它旨在解决标准优势函数估计方法的高方差问题，通过引入一个可调参数来平衡偏差与方差之间的关系。
详情可参考RL——GAE

PPO简单理解

PPO名字的由来

PPO（Proximal Policy Optimization）名字中的“Proximal”是指“近端”约束，表示确保新策略不会偏离旧策略太远，从而保证策略更新的稳定性和有效性。跟近端梯度下降（Proximal Gradient Descent）方法没有直接关系。“Proximal”是“最接近的”或“邻近的”。在不同的上下文中，“proximal”可以有不同的具体含义，但其核心概念通常与“接近”或“邻近”有关。
由于PPO的优化目标推导过程与TRPO相同，都用到了近似目标函数，所以推导过程中也用到了MM的思想和Trust Region的思想，但在解决问题时仅用到了近端（“Proximal”）约束，即每次迭代策略不要更新太多（没有严格遵循Trust Region推导得到的结果），严格来说不属于Trust Region方法

PPO-Penalty

又名PPO-惩罚
\begin{aligned}
\max_{\theta}&\ \ E_{s \sim \rho_{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}}\left[\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)}A_{\theta_{\text{old}}}(s,a) - \beta D_{KL}(\pi_{\theta_{\text{old}}}(\cdot|s), \pi_\theta(\cdot|s))\right]
\end{aligned}

PPO-Clip

又名PPO截断
\begin{aligned}
\max_\theta&\ \ E_{s\sim \rho_{\theta_{\text{old}}},a\sim q(a|s)}\min\left(\frac{\pi_\theta(a|s)}{q(a|s)}A_{\theta_{\text{old}}}(s,a), clip\left(\frac{\pi_\theta(a|s)}{q(a|s)}, 1-\epsilon, 1+\epsilon\right)A_{\theta_{\text{old}}}(a|s)\right)
\end{aligned}
理论上，以上采样分布可以是任意分布，实际上使用原始策略效果更好（样本利用率也更高）
\begin{aligned}
\max_\theta&\ \ E_{s \sim \rho_{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}}\min\left(\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)}A_{\theta_{\text{old}}}(s,a), clip\left(\frac{\pi_\theta(a|s)}{\pi_{\theta_{\text{old}}}(a|s)}, 1-\epsilon, 1+\epsilon\right)A_{\theta_{\text{old}}}(a|s)\right)
\end{aligned}

RL——TRPO

TRPO

TRPO目标

$$
\begin{aligned}
\max_{\theta_\text{new}} \quad &E_{s \sim \rho_{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}}\left[\frac{\pi_{\theta_\text{new}}(a|s)}{\pi_{\theta_\text{old}}(a|s)} A_{\pi_{\theta_\text{old}}}(s,a)\right] \\
&\text{s.t. } \quad \quad E_{s \sim \rho_{\pi_{\theta_\text{old}}}} \left[D_{\text{KL}}(\pi_{\theta_\text{old}}, \pi_{\theta_\text{new}})\right] \le \delta
\end{aligned}
$$

TRPO的目标详细推导见RL——TRPO-PPO-目标函数基础推导

TRPO推导

TRPO的目标仍然很难直接求解，所以TRPO考虑对目标做进一步的近似
$$
\begin{aligned}
E_{s \sim \rho_{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}}\left[\frac{\pi_{\theta}(a|s)}{\pi_{\theta_\text{old}}(a|s)} A_{\pi_{\theta_\text{old}}}(s,a)\right] &\approx g^T(\theta-\theta_{old}) \\
E_{s \sim \rho_{\pi_{\theta_\text{old}}}} \left[D_{\text{KL}}(\pi_{\theta_\text{old}}, \pi_{\theta})\right] &\approx \frac{1}{2}(\theta-\theta_{old})^TH(\theta-\theta_{old})
\end{aligned}
$$
- $g$为一阶梯度：
  $$ g = \nabla_{\theta}E_{s \sim \rho_{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}}\left[\frac{\pi_{\theta}(a|s)}{\pi_{\theta_\text{old}}(a|s)} A_{\pi_{\theta_\text{old}}}(s,a)\right] $$
- $H$为海森矩阵（Hessian Matrix，又译作黑塞矩阵）：
  $$ H = H[E_{s \sim \rho_{\pi_{\theta_\text{old}}}} \left[D_{\text{KL}}(\pi_{\theta_\text{old}}, \pi_{\theta})\right]] $$
  - 其中
    $$ H[f(x,y)] = \begin{bmatrix}
    \frac{\partial^2f}{\partial x^2} & \frac{\partial^2f}{\partial x\partial y} \\
    \frac{\partial^2f}{\partial x \partial y} & \frac{\partial^2f}{\partial y^2}
    \end{bmatrix}
    $$
于是得到进一步优化的目标
$$
\begin{aligned}
\theta_{k+1} = \arg\max_\theta &g^T(\theta-\theta_k)\\
\text{s.t. } \quad \frac{1}{2}(\theta-\theta_k)^T&H(\theta-\theta_k)≤\delta
\end{aligned}
$$
可根据拉格朗日乘子法求解以上问题得到如下解（详细推导见附录）：
$$ \theta_{k+1}=\theta_k+\sqrt{\frac{2\delta}{g^TH^{-1}g}}H^{-1}g $$
现实场景中，计算和存储Hessian矩阵的逆矩阵$H^{-1}$会耗费大量时间，所以TRPO通过共轭梯度法来避免直接求解$H^{-1}$，核心思想就是直接计算$x = H^{-1}g$作为参数的更新方向
设定$x = H^{-1}g$，则原始参数更新公式可变为：
$$ \theta_{k+1}=\theta_k+\sqrt{\frac{2\delta}{x^{T}Hx}}x $$
求解$x = H^{-1}g$则可转换为求方程$Hx = g$的解，方程$Hx = g$的解可通过共轭梯度法来求解，方法参见ML——共轭梯度法和最速下降法

TRPO更新步长

当前TRPO求解方案采用了泰勒展开的1阶近似和2阶近似，不是精准求解，新参数不一定能满足KL散度约束限制，所以在更新时，我们可以再进行一次步长搜索，使得更新后的新参数满足KL散度限制，且能够提升目标函数
线性搜索的具体规则，在$(0,1)$区间内抽取K个点$\{\alpha^i\}_{i=1}^K$

附录：最优化问题求解的详细推导

给定最优化问题
$$
\begin{aligned}
\theta_{k+1} = \arg\max_\theta &g^T(\theta-\theta_k)\\
\text{s.t. } \quad \frac{1}{2}(\theta-\theta_k)^T&H(\theta-\theta_k)≤\delta
\end{aligned}
$$
对于上述问题，Karush-Kuhn-Tucker (KKT) 条件可以表述为以下几点：
- 原始可行性：解必须满足原始约束。
  $$
  \frac{1}{2}(\theta-\theta_k)^TH(\theta-\theta_k) \leq \delta.
  $$
- 对偶可行性：拉格朗日乘子（或对偶变量）必须非负。
  $$
  \lambda \geq 0.
  $$
- 互补松弛性：拉格朗日乘子与对应的不等式约束之间的乘积必须为零。
  $$
  \lambda \left( \frac{1}{2}(\theta-\theta_k)^TH(\theta-\theta_k) - \delta \right) = 0.
  $$
- 拉格朗日函数的梯度为零：考虑拉格朗日函数 $L(\theta, \lambda) = - g^T(\theta-\theta_k) + \lambda \left( \frac{1}{2}(\theta-\theta_k)^TH(\theta-\theta_k) - \delta \right)$，其对 $\theta$ 的偏导数应等于零。
  $$
  \nabla_\theta L = - g + \lambda H (\theta - \theta_k) = 0.
  $$
  - 注意：这里是因为目标是max，需要改成min后才能用$+\lambda (\cdot)$ 的操作
这里，$H$ 是一个对称矩阵（Hessian矩阵是对称的），$\lambda$ 是与约束相关的拉格朗日乘子，$\delta$ 是给定的常数。
根据KKT条件中的互补松弛性条件，当 $\lambda > 0$ 时，这意味着约束 $\frac{1}{2}(\theta-\theta_k)^TH(\theta-\theta_k) \leq \delta$ 是紧的，即：
$$
\frac{1}{2}(\theta-\theta_k)^TH(\theta-\theta_k) = \delta.
$$
- 注意，这里无法直接求解这个问题，因为这个解问题的解不是唯一的，比如一维情况就是二次方程，解就有正负两个值，实际上，这里的解是一个以\theta_k为球心的球体（椭球体）构成的集合（一共有$2^n$个解？其中n是变量的维度）
因此，当 $\lambda > 0$ 时，$\theta$ 必须位于约束的边界上。为了确定 $\theta$ 的具体值，我们需要同时考虑其他KKT条件，尤其是拉格朗日函数的梯度为零的条件：
$$
- g + \lambda H (\theta - \theta_k) = 0
$$
从这个方程中，我们可以解出 $\theta$：
$$
\theta - \theta_k = \frac{1}{\lambda} H^{-1} g
$$
将 $\theta$ 代入互补松弛条件中可得：
$$
\frac{1}{2} \left( \frac{1}{\lambda} H^{-1} g \right)^T H \left( \frac{1}{\lambda} H^{-1} g \right) = \delta
$$
简化后得到：
$$
\begin{align}
\frac{1}{2} \left( \frac{1}{\lambda^2} g^T H^{-1} H H^{-1} g \right) &= \delta \\
\frac{1}{2} \left( \frac{1}{\lambda^2} g^T H^{-1} g \right) &= \delta \\
\frac{1}{2} \frac{g^T H^{-1} g}{\lambda^2} &= \delta \\
\frac{g^T H^{-1} g}{2\delta} &= \lambda^2 \\
\end{align}
$$
最终可求得：
$$
\lambda = \sqrt{\frac{g^T H^{-1} g}{2\delta}}.
$$
现在我们已经得到了 $\lambda$ 的表达式，可以将其代回 $\theta$ 的表达式中：
$$
\begin{align}
\theta - \theta_k &= \frac{1}{\sqrt{\frac{g^T H^{-1} g}{2\delta}}} H^{-1} g = \sqrt{\frac{2\delta}{g^T H^{-1} g}} H^{-1} g
\end{align}
$$
最终，$\theta$ 的值为：
$$
\theta_{k+1} = \theta_k + \sqrt{\frac{2\delta}{g^T H^{-1} g}} H^{-1} g.
$$

RL——TD误差和优势函数的区别

参考链接：
- TD误差 vs 优势函数 vs贝尔曼误差

TD误差

时间差分误差，TD error
定义如下：
$$
\delta_{\theta}(s, a, s’) = R(s, a, s’) + \gamma v_{\theta}(s’) - v_{\theta}(s)
$$
$R(s,a,s’)=r(s,a,s’)$，表示从状态$s$执行$a$之后转移到$s’$获得的立即回报
TD error是针对确定的$s’$来说的

优势函数

优势函数，Advantage Function
$$
A_{\theta}(s,a) = E_{s’\sim P}[\delta_{\theta}(s, a, s’)] = E_{s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s) = Q_{\theta}(s,a) - v_{\theta}(s)
$$
优势函数是TD误差关于状态$s’$的期望，即从状态$s$执行$a$之后关于状态$s’$的期望

贝尔曼误差

贝尔曼误差
$$
\epsilon_{\theta}(s) = E_{a\sim \pi} [A_{\theta}(s,a)] = E_{a\sim \pi,s’\sim P}[\delta_{\theta}(s, a, s’)] = E_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)] - v_{\theta}(s)
$$
贝尔曼误差是优势函数关于动作$a$的期望

期望贝尔曼误差

期望贝尔曼误差
$$
E_{s\sim \mu} [\epsilon_{\theta}(s)] = E_{s\sim \mu}[E_{a \sim \pi, s’\sim P}[R(s, a, s’) + \gamma v_{\theta}(s’)]] - E_{s\sim \mu}[ v_{\theta}(s)]
$$
贝尔曼误差是优势函数关于动作$a$的期望

RL——策略梯度法

策略梯度法(Policy Gradient)推导，以及REINFORCE算法的介绍

基础概念

策略 $\pi(a|s, \theta)$ (也可以表达为 $\pi_{ \theta}(a|s)$)是一个从状态 $s$ 到动作 $a$ 概率的映射，其中 $\theta$ 表示策略的参数。
整个轨迹的累计回报 $R_(\tau)$是轨迹$\tau$对应的回报：
$$
R(\tau) = \sum_{k=0}^{\infty} r_{k}
$$
- 注意：这里没有折扣因子
时间t步开始的回报 $G_t$ 是从时间步 $t$ 开始到结束的所有奖励的总和，通常定义为折扣累积奖励：
$$
G_t = \sum_{k=t}^{\infty} \gamma^k r_{k}
$$
其中 $\gamma$ 是折扣因子，$r_{k}$ 是在时间步 $k$ 收到的即时奖励。
目标是找到参数 $\theta$ 使得长期回报的期望值最大，即 $\max_\theta J(\theta)$，其中 $J(\theta) = E_{\tau \sim p_\theta(\tau)} [R(\tau)]$。

推导过程

优化目标：

目标函数 $J(\theta)$ 定义为从初始分布开始，遵循策略 $\pi_\theta$ 时的平均回报：
$$
J(\theta) = E_{\tau \sim p_\theta(\tau)} [R(\tau)]
$$
其中 $\tau = (s_0, a_0, r_1, s_1, a_1, \dots)$ 表示一个轨迹，$p_\theta(\tau)$ 是在策略 $\pi_\theta$ 下产生轨迹 $\tau$ 的概率。

梯度估计：

我们的目标是计算目标函数关于参数 $\theta$ 的梯度 $\nabla_\theta J(\theta)$。我们有：
$$
\nabla_\theta J(\theta) = \nabla_\theta \int R(\tau) p_\theta(\tau) d\tau = \int R(\tau) \nabla_\theta p_\theta(\tau) d\tau
$$
使用对数概率技巧（log derivative trick，$\nabla_\theta log y({\theta}) = \frac{\nabla_\theta y({\theta})}{ y({\theta}) }$）可以将上式转换为：
$$
\nabla_\theta J(\theta) = \int R(\tau) p_\theta(\tau) \frac{\nabla_\theta p_\theta(\tau)}{p_\theta(\tau)} d\tau = E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)]
$$
如果通过蒙特卡洛采样估计上面的式子，则可以写成：
$$
\begin{align}
\nabla_\theta J(\theta) &= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] \\
&\approx \frac{1}{N} \sum_{n=1}^{N} R(\tau^n) \nabla_\theta \log p_\theta(\tau^n)
\end{align}
$$
- 上式是对原始梯度的无偏估计

轨迹展开：

轨迹展开后，有 $p_\theta(\tau) = p(s_0) \prod_t \pi_\theta(a_t|s_t) p(s_{t+1}|s_t, a_t)$，其中 $p(s_0)$ 是初始状态的分布，$p(s_{t+1}|s_t, a_t)$ 是环境的转移概率。
$$
\begin{align}
p_\theta(\tau) &= p_{\pi_\theta}(s_0, a_0, s_1, a_1,\cdots) \\
&= p(s_0)\pi_\theta(a_0|s_0)p(s_1|s_0,a_0)\cdots \\
&= p(s_0) \prod_t \pi_\theta(a_t|s_t) p(s_{t+1}|s_t, a_t)
\end{align}
$$
由于环境的输出与策略无关，即$\nabla_\theta p(s_1|s_0,a_0) = 0$，于是有：
$$
\begin{align}
\nabla_\theta \log p_\theta(\tau) &= \nabla_\theta p(s_0) \prod_t \pi_\theta(a_t|s_t) p(s_{t+1}|s_t, a_t) \\
&= \nabla_\theta \log p(s_0) + \nabla_\theta \sum_t \log \pi_\theta(a_t|s_t) + \nabla_\theta \sum_t \log p(s_{t+1}|s_t, a_t) \\
&= \nabla_\theta \sum_t \log \pi_\theta(a_t|s_t) \\
&= \sum_t \nabla_\theta \log \pi_\theta(a_t|s_t)
\end{align}
$$
所以我们可以进一步简化梯度表达式为：
$$
\begin{align}
\nabla_\theta J(\theta) &= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] = E_{\tau \sim p_\theta(\tau)} \left[\sum_t \nabla_\theta \log \pi_\theta(a_t|s_t) R(\tau^n) \right] \\
&\approx \frac{1}{N} \sum_{n=1}^{N} R(\tau^n) \nabla_\theta \log p_\theta(\tau^n) = \frac{1}{N}\sum_{n=1}^N \sum_{t=1}^{T_n} R(\tau^n) \nabla_\theta \log \pi_\theta(a_t|s_t)
\end{align}
$$
- 此时，上式依然是对原始梯度的无偏估计
核心理解：
- $R(\tau^n)$表示采样得到的轨迹$\tau^n$对应的Reward，上述公式假设一共有N个轨迹
- 对于任意给定的轨迹$\tau^n$，其上面的任意样本对$(s_t,a_t)$，均使用固定的$R(\tau^n)$对 $\nabla_\theta \log \pi_\theta(a_t|s_t)$进行加权（实际上在使用中，不会直接使用$R(\tau^n)$，因为轨迹中过去的Reward与当前动作无关，所以，我们仅考虑后续的轨迹上的收益即可）

REINFORCE算法：

考虑到轨迹中过去的Reward与当前动作无关，且后续轨迹上的收益与当前动作的关系越来越小，所以我们使用$G_t$来替换$R(\tau)$
$$
R(\tau) = \sum_{k=0}^{\infty} r_{k} \quad \rightarrow \quad G_t = \sum_{k=t}^{\infty} \gamma^k r_{k}
$$
此时梯度进一步近似为：
$$
\begin{align}
\nabla_\theta J(\theta) &\approx \frac{1}{N}\sum_{n=1}^N \sum_{t=1}^{T_n} R(\tau^n) \nabla_\theta \log \pi_\theta(a_t|s_t) \\
&\approx \frac{1}{N}\sum_{n=1}^N \sum_{t=1}^{T_n} G_t^n \nabla_\theta \log \pi_\theta(a_t|s_t)
\end{align}
$$
REINFORCE算法利用上述梯度估计来更新策略参数。具体地，对于轨迹$R(\tau^n)$上的状态动作样本对$(s_t,a_t)$，参数更新规则如下：
$$
\theta \leftarrow \theta + \alpha \nabla_\theta \log \pi_\theta(a_t|s_t) G_t^n
$$
- 其中 $\alpha$ 是学习率
- 因为是累加操作，所以可以展开对每一个状态动作样本对$(s_t,a_t)$进行累加
- $\frac{1}{N}$可以不需要了，有了学习率了，可以调节到学习率中
补充REINFORCE算法伪代码：

减小方差：

为了减少方差，可以在梯度估计中引入一个baseline函数 $b(s_t)$，它是一个与动作无关的量。更新规则变为：
$$
\theta \leftarrow \theta + \alpha \nabla_\theta \log \pi_\theta(a_t|s_t) (G_t - b(s_t))
$$
- 常见的选择是使用价值函数 $V(s_t)$ 作为基线，这有助于稳定学习过程。
- 可以证明，增加 $b(s_t)$ 后，梯度不会发生改变，上式对梯度的估计依然是无偏的
性质一：减去一个baseline以后，依然是原始梯度的无偏估计，证明如下：
$$
\begin{align}
\nabla_\theta J(\theta)
&= E_{\tau \sim p_{\theta}(\tau)} (R(\tau) - b) \nabla_\theta \log p_{\theta}(\tau) \\
&= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] - b E_{\tau \sim p_{\theta}(\tau)} \nabla_\theta \log p_{\theta}(\tau) \\
&= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] - b \sum_\tau p_{\theta}(\tau) \nabla_\theta \log p_{\theta}(\tau) \\
&= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] - b \sum_\tau \nabla_\theta p_{\theta}(\tau) \\
&= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] - b \nabla_\theta \sum_\tau p_{\theta}(\tau) \\
&= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] - b \nabla_\theta 1 \\
&= E_{\tau \sim p_\theta(\tau)} [R(\tau) \nabla_\theta \log p_\theta(\tau)] \\
\end{align}
$$
- 第三行到第四行用到了对数概率技巧：$\nabla_\theta log y({\theta}) = \frac{\nabla_\theta y({\theta})}{ y({\theta}) }$
- 第四行到第五行使用了求梯度和加法交换顺序的法则
性质二：减去一个合适的baseline函数以后，方差会变小，证明如下：
- 方差展开
  $$
  \begin{align}
  &\ Var_{\tau \sim p_{\theta}(\tau)} [(R(\tau) - b) \nabla \log p_{\theta}(\tau)] \\
  &= E_{\tau \sim p_{\theta}(\tau)} [(R(\tau) - b)^2 \nabla^2 \log p_{\theta}(\tau)] - [E_{\tau \sim p_{\theta}(\tau)} [(R(\tau) - b) \nabla \log p_{\theta}(\tau)] ]^2 \\
  &= E_{\tau \sim p_{\theta}(\tau)} [R(\tau)^2 \nabla^2 \log p_{\theta}(\tau)] - [E_{\tau \sim p_{\theta}(\tau)} [R(\tau) \nabla \log p_{\theta}(\tau)] ]^2 - 2 b E_{\tau \sim p_{\theta}(\tau)} [R(\tau) \nabla^2 \log p_{\theta}(\tau)] + b^2 E_{\tau \sim p_{\theta}(\tau)} [ \nabla^2 \log p_{\theta}(\tau)] \\
  &= Var_{\tau \sim p_{\theta}(\tau)} [R(\tau) \nabla \log p_{\theta}(\tau) ] - 2 b E_{\tau \sim p_{\theta}(\tau)} [R(\tau) \nabla^2 \log p_{\theta}(\tau)] + b^2 E_{\tau \sim p_{\theta}(\tau)} [ \nabla^2 \log p_{\theta}(\tau)]
  \end{align}
  $$
- 进一步解的，使得上式取小值的最优$b$为：
  $$
  b = \frac{E_{\tau \sim p_{\theta}(\tau)} [R(\tau) \nabla^2 \log p_{\theta}(\tau)] }{E_{\tau \sim p_{\theta}(\tau)} [ \nabla^2 \log p_{\theta}(\tau)]}
  $$
- 实际应用中，为了方便计算，通常会使用：
  $$
  \hat{b} = E_{\tau \sim p_{\theta}(\tau)} R(\tau)
  $$
- 那为什么$\hat{b} = E_{\tau \sim p_{\theta}(\tau)} R(\tau)$是$V_{\pi_{\theta}}(s_t)$呢？因为两者是等价的，证明如下：
  - 对于非确定性策略来说，在状态$s_t$下可选的动作服从一个分布$\pi_{\theta}(s_t)$，按照$E_{\tau \sim p_{\theta}(\tau)} R(\tau)$的逻辑，该值是状态$s_t$下按照策略$\pi_{\theta}(s_t)$执行得到$R(\tau)$期望（注意$a_t$服从$\pi_{\theta}$分布，后续的执行动作也服从$\pi_{\theta}$分布），实际上就是$V_{\pi_{\theta}}(s_t)$

实际使用中的$R(\tau)$

原始形式

$$ R(\tau) = \sum_{k=0}^{\infty} r_{k} $$

上式中实际上是一个固定轨迹的奖励，从第0步开始
可基于蒙特卡洛采样得到

REINFORCE方法

迭代样本$(s_t,a_t)$时，使用以下形式：
$$ G_t = \sum_{k=t}^{\infty} \gamma^k r_{k} $$
- 丢弃掉动作之前的奖励，这些奖励与当前动作无关
- 未来越远的动作奖励越小，因为这些奖励受当前动作影响的概率越小
使用baseline函数进行改进
$$\sum_{k=t}^{\infty} \gamma^k r_{k} - b(s_t)$$

用Q值替代

用$Q(s,a)$值代替$R(\tau)$
理由，$Q(s,a)$值是状态$s$执行$a$以后的$G_t$的期望值：
$$Q^{\pi_\theta}(s_t,a_t) = E_{\pi_\theta} [G_t|s_t, a_t]$$
使用Q值来替代可以降低方差

用优势函数替代

用$A(s,a) = Q(s,a) - V(s)$来替代
- 可以减去$V(s)$的理由是之前证明过减去一个baseline函数$V(s)$可以降低方差，且梯度无偏
实际上使用时可以使用单个V网络+TD-Error实现对优势函数的估计
$$ A(s,a) = r(s,a) + \gamma V(s’) - V(s) $$
应用场景：
- 常规的Actor Critic方法
- PPO方法的优势函数估计（实际的PPO中常常是GAE方式，是优势函数的一种加权）

RL——多阶段决策-贯序决策-马尔科夫决策

目标

区分多阶段决策-贯序决策-马尔科夫决策之间的区别和联系

决策过程分析

百度百科

马尔可夫决策过程（Markov Decision Process, MDP）是序贯决策（sequential decision）的数学模型，用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报
多阶段决策是指决策者在整个决策过程中做出时间上先后有别的多项决策。它通常比只需做出一项决策的单阶段决策要复杂，它或是要决策者一次确定各阶段应选择的一串最优策略，或是找出表示一个过程内连续变化的一条控制变量曲线，或是确定适合不同状态的灵活策略。
序贯决策是指按时间顺序排列起来，以得到按顺序的各种决策(策略)，是用于随机性或不确定性动态系统最优化的决策方法。

RL——强化学习中的方差与偏差

MC和TD的方差分析

MC
- 方差大，偏差小
TD
- 偏差大，方差小
理解：
- 与模型训练类似，方差与偏差是指同一个模型(bagging中所有模型共同组成一个模型)的输出是随着数据集/时间变化的
- 方差大表达的是多次评估结果之间差别大
- 偏差大则表示多次评估结果的均值与真实值差别大
- MC采样每次都需要重新采样不同路径集合，在不同路径集合下，相同状态价值的评估结果差别大，但是结果的期望是符合真实情况的（甚至是无偏的）
- TD方案则每次都使用下一个状态的相关估值，方差不会太大，但是下个状态的估值不一定符合真实值，所以偏差较大
参考链接：

Multi-Step TD

Multi-Step TD，也称为n-step TD
将TD中的即时奖励替换成采用未来多个时间片的奖励和，同时$\gamma V(s_{t+1})$值替换成$\gamma^n V(s_{t+n})$
详情如下：

$\lambda$-return

$\lambda$-return是在Forward视角下，对n-step TD的各个值进行加权求和
$$
G^{\lambda}_t = (1-\lambda) \sum^{N-1}_1 G_t^{(n)} + \lambda^{N-1} G_t^{(N)}
$$
其中 $0\le \lambda \le 1$，当 $\lambda=0$且$N=1$ 即为TD算法，当$\lambda=1$即为MC算法。
注意：$(1-\lambda)$是为了配平整个式子，保证加权平均的权重和为1

TD($\lambda$)

TD($\lambda$)方法是在Backward视角下，对n-step TD的各个值进行加权求和
- TD($\lambda$)可以解决$\lambda$-return需要等到episode结束才能获得状态估计量的缺点？
资格迹【TODO】：
- 参考链接：强化学习导论（十二）- 资格迹-知乎-张万鹏

RL——模仿学习

参考链接：模仿学习(Imitation Learning)概述

RL——模仿学习

参考链接

Joe Zhou

本博客主要用于记录个人学习笔记

GitHub E-Mail

PPO

PPO的训练技巧

为什么说PPO算法是on-policy的？

TD3

改进1：Twin

改进2：Delayed

改进3：增加噪声

其他扩展

相关概念理解

基础概念

强化学习的目标定义

普通策略梯度法的解法

普通策略梯度法会遇到的问题

TRPO/PPO的核心思想

TRPO/PPO的推导

策略提升的引入

策略提升的变形

TRPO简单理解

TRPO名字的由来

TRPO解法思路

GAE

PPO简单理解

PPO名字的由来

PPO-Penalty

PPO-Clip

TRPO

TRPO目标

TRPO推导

TRPO更新步长

附录：最优化问题求解的详细推导

TD误差

优势函数

贝尔曼误差

期望贝尔曼误差

基础概念

推导过程

优化目标：

梯度估计：

轨迹展开：

REINFORCE算法：

减小方差：

实际使用中的\(R(\tau)\)

原始形式

REINFORCE方法

用Q值替代

用优势函数替代

目标

决策过程分析

MC和TD的方差分析

Multi-Step TD

\(\lambda\)-return

TD(\(\lambda\))

参考链接