RL——多阶段决策-贯序决策-马尔科夫决策

目标

  • 区分多阶段决策-贯序决策-马尔科夫决策之间的区别和联系

决策过程分析

  • 百度百科

    马尔可夫决策过程(Markov Decision Process, MDP)是序贯决策(sequential decision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报
    多阶段决策是指决策者在整个决策过程中做出时间上先后有别的多项决策。它通常比只需做出一项决策的单阶段决策要复杂,它或是要决策者一次确定各阶段应选择的一串最优策略,或是找出表示一个过程内连续变化的一条控制变量曲线,或是确定适合不同状态的灵活策略。
    序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。