RL——POMDP

MDP

    • 对于确定决策,策略的概率值为1即可

      POMDP

  • 求解方案

    • RL本身并不假设知道状态转移矩阵等,所以其实可以直接使用RL求解POMDP试一下的,只是RL不保证收敛而已(PS:Q-Learning还是收敛的吧,只是DQN没有数据证明收敛)
    • 如果能建模出来POMDP的整个过程,没必要用RL了