贝尔曼方程(Bellman Equation)
- 贝尔曼方程描述了当前状态的值函数与后续状态值函数之间的关系
- 有状态值函数 \(V^\pi(s)\) 和动作值函数 \(Q^\pi(s,a)\)
状态值函数 \(V^\pi(s)\) 的贝尔曼方程
- 标准形式(常见) :
$$
V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^\pi(s’) \right]
$$- \(\pi(a|s)\):策略 \(\pi\) 下在状态 \(s\) 选择动作 \(a\) 的概率
- \(\gamma\):折扣因子
- \(p(s’, r | s, a)\):环境动态,表示在状态 \(s\) 执行动作 \(a\) 后转移到状态 \(s’\) 并获得奖励 \(r\) 的概率
- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
$$
V^\pi(s) = \sum_{a} \pi(a|s) \left(r(s,a) + \gamma \sum_{s’} p(s’| s, a) V^\pi(s’) \right)
$$
- 期望形式(少见) :
$$
\begin{align}
V^\pi(s) &= \mathbb{E}_\pi \left[ R_t + \gamma V^\pi(S_{t+1}) \mid S_t = s \right] \\
\end{align}
$$- \(\mathbb{E}_\pi\):基于策略 \(\pi\) 和环境动态的期望
- \(\mathbb{E}[\cdot \mid S_t = s]\) 表示条件概率
- 矩阵形式(极少遇到)(适用于有限状态空间):
$$
\mathbf{v}_\pi = \mathbf{r}_\pi + \gamma \mathbf{P}_\pi \mathbf{v}_\pi
$$- \(\mathbf{v}_\pi\):状态值函数的向量
- \(\mathbf{r}_\pi\):即时奖励的向量
- \(\mathbf{P}_\pi\):状态转移矩阵
动作值函数 \(Q^\pi(s,a)\) 的贝尔曼方程
- 标准形式 :
$$
Q^\pi(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma \sum_{a’} \pi(a’|s’) Q^\pi(s’, a’) \right]
$$- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
$$
Q^\pi(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) \sum_{a’} \pi(a’|s’) Q^\pi(s’, a’) \\
$$
- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
- 期望形式 :
$$
Q^\pi(s,a) = \mathbb{E}_\pi \left[ R_t + \gamma Q^\pi(S_{t+1}, A_{t+1}) \mid S_t = s, A_t = a \right]
$$- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
$$
\begin{align}
Q^\pi(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}\mathbb{E}_{a^\prime \sim \pi(\cdot|s^\prime)}[Q^\pi(s^\prime,a^\prime)] \\
Q^\pi(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[V^\pi(s^\prime)] \\
\end{align}
$$
- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
最优贝尔曼方程(Bellman Optimality Equation)
- 最优贝尔曼方程描述了最优值函数 \(V^*(s)\) 或 \(Q^*(s,a)\) 的递归关系
- 相对期望贝尔曼方程,其核心是将策略的期望替换为对动作的最优选择(最大化)
最优状态值函数 \(V^*(s)\) 的方程
标准形式 :
$$
V^*(s) = \max_a \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^*(s’) \right]
$$- \(\max_a\):选择使后续值最大的动作
- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
$$
V^*(s) = \max_a \{ r(s,a) + \gamma \sum_{s’} p(s’| s, a)V^*(s’)\}
$$
期望形式 :
$$
V^*(s) = \max_a \mathbb{E} \left[ R_t + \gamma V^*(S_{t+1}) \mid S_t = s, A_t = a \right]
$$与动作值函数的关系 :
$$
V^*(s) = \max_a Q^*(s, a)
$$
最优动作值函数 \(Q^*(s,a)\) 的方程
标准形式 :
$$
Q^*(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma \max_{a’} Q^*(s’, a’) \right]
$$- \(\max_{a’}\):在下一状态 \(s’\) 选择最优动作
- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
$$
Q^*(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) \max_{a’} Q^*(s’, a’)
$$
期望形式 :
$$
Q^*(s,a) = \mathbb{E} \left[ R_t + \gamma \max_{a’} Q^*(S_{t+1}, a’) \mid S_t = s, A_t = a \right]
$$- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
$$
\begin{align}
Q^*(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[\max_{a^\prime\in \mathcal{A}}Q^*(s^\prime,a^\prime)] \\
Q^*(s,a) &= r(s,a) + \gamma \mathbb{E}_{s^\prime \sim P(\cdot|s,a)}[V^*(s^\prime)] \\
\end{align}
$$
- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上贝尔曼方程也常常写作(最常见):
与状态值函数的关系 :
$$
Q^*(s,a) = \sum_{s’, r} p(s’, r | s, a) \left[ r + \gamma V^*(s’) \right]
$$- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上式子可写作:
$$
Q^*(s,a) = r(s,a) + \gamma \sum_{s’} p(s’| s, a) V^*(s’)
$$
- 假设状态 \(s\) 执行动作 \(a\) 对应的奖励 \(r=r(s,a)\) 是确定值,此时以上式子可写作:
一些变体
- 确定性策略 :
- 若策略是确定性的(如 \(\pi(s) = a\)),贝尔曼方程中的 \(\pi(a|s)\) 退化为指示函数
- 无折扣形式(\(\gamma = 1\)) :
- 适用于分幕任务(episodic tasks),但需确保收敛性
- 确定性奖励 :
- 见前文描述,对应奖励 \(r=r(s,a)\) 是确定值