Jiahong 的个人博客

凡事预则立,不预则废


  • Home

  • Tags

  • Archives

  • Navigation

  • Search

RL——MICRO

本文简单介绍 MICRO 模型

  • 参考链接:
    • 原始论文:MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator, UCAS, arXiv 2023.12, IJCAI 2024
    • 使用到 MICRO 文章的工作:Model-based RL自动出价算法的演进之路,阿里妈妈技术

MICRO 基本思想

  • 主要用于解决Offline RL的问题,属于Model-based方法
  • 发表于2023年底,中IJCAI 2024

MICRO 方法详情

  • MICRO训练代码
  • 流程说明:
    • 训练 K 个Critic网络 \(\{Q_{w_i}\}_{i=1}^K\) ,类似 Twin Q 的作用
    • 训练 N 个Dynamics模型 \(\{T_\phi^i\}_{i=1}^N\) ,用于交互合成数据
    • 每次迭代时:
      • 从 \(T_\phi^i\) 中采样得到多步展开,并加入到数据集 \(D_\text{model}\) 中
      • 从混合数据(模型和真实数据混合)中采样
      • 按照指定公式分别更新 Critic 网络和策略网络
      • 软更新目标Q网络
  • 相关变量说明:
    • 关于公式:\(f(s,a) = \max_{a’\in \mathcal{A}}Q(s’,a’) - \inf_{\bar{s} \in \mathcal{X}(s,a)}\Big[ \max_{a’\in \mathcal{A}}Q(\bar{s},a’) \Big]\) ,有:
      $$
      \begin{align}
      s’ &\sim \frac{1}{N}\sum_{i=1}^N T_\phi^i(s’|s,a) \\
      \mathcal{X}(s,a) &= \{s’|s’\sim T_\phi^i(s’|s,a), i=1,2,\cdots,N \}
      \end{align}
      $$
      • 这里使用 \(\inf_{\bar{s} \in \mathcal{X}(s,a)}\Big[ \max_{a’\in \mathcal{A}}Q(\bar{s},a’) \Big]\) 可以用于减少状态 \(s’\) 的不确定性对Q值造成的影响,Model-based RL自动出价算法的演进之路,阿里妈妈技术中有用到类似思想
  • 问题:
    • 如何理解公式12中 \(f(s,a)\) 的作用?
1…6364
Joe Zhou

Joe Zhou

Stay Hungry. Stay Foolish.

631 posts
53 tags
GitHub E-Mail
© 2026 Joe Zhou
Powered by Hexo
|
Theme — NexT.Gemini v5.1.4