RL——POMDP 参考链接:POMDP讲解 MDP 对于确定决策,策略的概率值为1即可POMDP 求解方案 RL本身并不假设知道状态转移矩阵等,所以其实可以直接使用RL求解POMDP试一下的,只是RL不保证收敛而已(PS:Q-Learning还是收敛的吧,只是DQN没有数据证明收敛) 如果能建模出来POMDP的整个过程,没必要用RL了