RL——贝尔曼方程的各种形式

标准形式（常见） ：
$$
V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^\pi(s’) \right]
$$
- $\pi(a|s)$：策略 $\pi$ 下在状态 $s$ 选择动作 $a$ 的概率
- $\gamma$：折扣因子
- $p(s’, r | s, a)$：环境动态，表示在状态 $s$ 执行动作 $a$ 后转移到状态 $s’$ 并获得奖励 $r$ 的概率
- 假设状态 $s$ 执行动作 $a$ 对应的奖励 $r=r(s,a)$ 是确定值，此时以上贝尔曼方程也常常写作（最常见）：
  $$
  V^\pi(s) = \sum_{a} \pi(a|s) \left(r(s,a) + \gamma \sum_{s’} p(s’| s, a) V^\pi(s’) \right)
  $$
期望形式（少见） ：
$$
\begin{align}
V^\pi(s) &= \mathbb{E}_\pi \left[ R_t + \gamma V^\pi(S_{t+1}) \mid S_t = s \right] \\
\end{align}
$$
- $\mathbb{E}_\pi$：基于策略 $\pi$ 和环境动态的期望
- $\mathbb{E}[\cdot \mid S_t = s]$ 表示条件概率
矩阵形式（极少遇到）（适用于有限状态空间）：
$$
\mathbf{v}_\pi = \mathbf{r}_\pi + \gamma \mathbf{P}_\pi \mathbf{v}_\pi
$$
- $\mathbf{v}_\pi$：状态值函数的向量
- $\mathbf{r}_\pi$：即时奖励的向量
- $\mathbf{P}_\pi$：状态转移矩阵

标准形式 ：
$$
Q^\pi(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma \sum_{a’} \pi(a’|s’) Q^\pi(s’, a’) \right]
$$
- 假设状态 $s$ 执行动作 $a$ 对应的奖励 $r=r(s,a)$ 是确定值，此时以上贝尔曼方程也常常写作（最常见）：
  $$
  Q^\pi(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) \sum_{a’} \pi(a’|s’) Q^\pi(s’, a’) \\
  $$
期望形式 ：
$$
Q^\pi(s,a) = \mathbb{E}_\pi \left[ R_t + \gamma Q^\pi(S_{t+1}, A_{t+1}) \mid S_t = s, A_t = a \right]
$$
- 假设状态 $s$ 执行动作 $a$ 对应的奖励 $r=r(s,a)$ 是确定值，此时以上贝尔曼方程也常常写作（最常见）：
  $$
  \begin{align}
  Q^\pi(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}\mathbb{E}_{a^\prime \sim \pi(\cdot|s^\prime)}[Q^\pi(s^\prime,a^\prime)] \\
  Q^\pi(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[V^\pi(s^\prime)] \\
  \end{align}
  $$

标准形式 ：
$$
V^*(s) = \max_a \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^*(s’) \right]
$$
- $\max_a$：选择使后续值最大的动作
- 假设状态 $s$ 执行动作 $a$ 对应的奖励 $r=r(s,a)$ 是确定值，此时以上贝尔曼方程也常常写作（最常见）：
  $$
  V^*(s) = \max_a \{ r(s,a) + \gamma \sum_{s’} p(s’| s, a)V^*(s’)\}
  $$
期望形式 ：
$$
V^*(s) = \max_a \mathbb{E} \left[ R_t + \gamma V^*(S_{t+1}) \mid S_t = s, A_t = a \right]
$$
与动作值函数的关系 ：
$$
V^*(s) = \max_a Q^*(s, a)
$$

标准形式 ：
$$
Q^*(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma \max_{a’} Q^*(s’, a’) \right]
$$
- $\max_{a’}$：在下一状态 $s’$ 选择最优动作
- 假设状态 $s$ 执行动作 $a$ 对应的奖励 $r=r(s,a)$ 是确定值，此时以上贝尔曼方程也常常写作（最常见）：
  $$
  Q^*(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) \max_{a’} Q^*(s’, a’)
  $$
期望形式 ：
$$
Q^*(s,a) = \mathbb{E} \left[ R_t + \gamma \max_{a’} Q^*(S_{t+1}, a’) \mid S_t = s, A_t = a \right]
$$
- 假设状态 $s$ 执行动作 $a$ 对应的奖励 $r=r(s,a)$ 是确定值，此时以上贝尔曼方程也常常写作（最常见）：
  $$
  \begin{align}
  Q^*(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[\max_{a^\prime\in \mathcal{A}}Q^*(s^\prime,a^\prime)] \\
  Q^*(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[V^*(s^\prime)] \\
  \end{align}
  $$
与状态值函数的关系 ：
$$
Q^*(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^*(s’) \right]
$$
- 假设状态 $s$ 执行动作 $a$ 对应的奖励 $r=r(s,a)$ 是确定值，此时以上式子可写作：
  $$
  Q^*(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) V^*(s’)
  $$