RL——贝尔曼方程的各种形式


贝尔曼方程(Bellman Equation)

  • 贝尔曼方程描述了当前状态的值函数与后续状态值函数之间的关系
  • 状态值函数 \(V^\pi(s)\)动作值函数 \(Q^\pi(s,a)\)

状态值函数 \(V^\pi(s)\) 的贝尔曼方程

  • 标准形式(常见)
    $$
    V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^\pi(s’) \right]
    $$
    • \(\pi(a|s)\):策略 \(\pi\) 下在状态 \(s\) 选择动作 \(a\) 的概率
    • \(\gamma\):折扣因子
    • \(p(s’, r | s, a)\):环境动态,表示在状态 \(s\) 执行动作 \(a\) 后转移到状态 \(s’\) 并获得奖励 \(r\) 的概率
    • 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
      $$
      V^\pi(s) = \sum_{a} \pi(a|s) \left(r(s,a) + \gamma \sum_{s’} p(s’| s, a) V^\pi(s’) \right)
      $$
  • 期望形式(少见)
    $$
    \begin{align}
    V^\pi(s) &= \mathbb{E}_\pi \left[ R_t + \gamma V^\pi(S_{t+1}) \mid S_t = s \right] \\
    \end{align}
    $$
    • \(\mathbb{E}_\pi\):基于策略 \(\pi\) 和环境动态的期望
    • \(\mathbb{E}[\cdot \mid S_t = s]\) 表示条件概率
  • 矩阵形式(极少遇到)(适用于有限状态空间):
    $$
    \mathbf{v}_\pi = \mathbf{r}_\pi + \gamma \mathbf{P}_\pi \mathbf{v}_\pi
    $$
    • \(\mathbf{v}_\pi\):状态值函数的向量
    • \(\mathbf{r}_\pi\):即时奖励的向量
    • \(\mathbf{P}_\pi\):状态转移矩阵

动作值函数 \(Q^\pi(s,a)\) 的贝尔曼方程

  • 标准形式
    $$
    Q^\pi(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma \sum_{a’} \pi(a’|s’) Q^\pi(s’, a’) \right]
    $$
    • 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
      $$
      Q^\pi(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) \sum_{a’} \pi(a’|s’) Q^\pi(s’, a’) \\
      $$
  • 期望形式
    $$
    Q^\pi(s,a) = \mathbb{E}_\pi \left[ R_t + \gamma Q^\pi(S_{t+1}, A_{t+1}) \mid S_t = s, A_t = a \right]
    $$
    • 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
      $$
      \begin{align}
      Q^\pi(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}\mathbb{E}_{a^\prime \sim \pi(\cdot|s^\prime)}[Q^\pi(s^\prime,a^\prime)] \\
      Q^\pi(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[V^\pi(s^\prime)] \\
      \end{align}
      $$

最优贝尔曼方程(Bellman Optimality Equation)

  • 最优贝尔曼方程描述了最优值函数 \(V^*(s)\) 或 \(Q^*(s,a)\) 的递归关系
  • 相对期望贝尔曼方程,其核心是将策略的期望替换为对动作的最优选择(最大化)

最优状态值函数 \(V^*(s)\) 的方程

  • 标准形式
    $$
    V^*(s) = \max_a \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^*(s’) \right]
    $$

    • \(\max_a\):选择使后续值最大的动作
    • 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
      $$
      V^*(s) = \max_a \{ r(s,a) + \gamma \sum_{s’} p(s’| s, a)V^*(s’)\}
      $$
  • 期望形式
    $$
    V^*(s) = \max_a \mathbb{E} \left[ R_t + \gamma V^*(S_{t+1}) \mid S_t = s, A_t = a \right]
    $$

  • 与动作值函数的关系
    $$
    V^*(s) = \max_a Q^*(s, a)
    $$

最优动作值函数 \(Q^*(s,a)\) 的方程

  • 标准形式
    $$
    Q^*(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma \max_{a’} Q^*(s’, a’) \right]
    $$

    • \(\max_{a’}\):在下一状态 \(s’\) 选择最优动作
    • 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
      $$
      Q^*(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) \max_{a’} Q^*(s’, a’)
      $$
  • 期望形式
    $$
    Q^*(s,a) = \mathbb{E} \left[ R_t + \gamma \max_{a’} Q^*(S_{t+1}, a’) \mid S_t = s, A_t = a \right]
    $$

    • 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
      $$
      \begin{align}
      Q^*(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[\max_{a^\prime\in \mathcal{A}}Q^*(s^\prime,a^\prime)] \\
      Q^*(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[V^*(s^\prime)] \\
      \end{align}
      $$
  • 与状态值函数的关系
    $$
    Q^*(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^*(s’) \right]
    $$

    • 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上式子可写作:
      $$
      Q^*(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) V^*(s’)
      $$

一些变体

  • 确定性策略
    • 若策略是确定性的(如 \(\pi(s) = a\)),贝尔曼方程中的 \(\pi(a|s)\) 退化为指示函数
  • 无折扣形式(\(\gamma = 1\))
    • 适用于分幕任务(episodic tasks),但需确保收敛性
  • 确定性奖励
    • 见前文描述,对应奖励 \(r=r(s,a)\) 是确定值