本文主要记录AIGB出价模型
- 其他参考链接:
核心思路
- 参考Decision Diffuser方法,对该方法进行微改并应用到出价上
- 改动一:逆向动力学模型(Acting with Inverse-Dynamics),中使用更多的状态来生成动作,AIGB中使用 \(a_t:= f_\phi(s_{t-L:t},s_{t+1})\),原始Decision Diffuser方法则仅使用 \(a_t:= f_\phi(s_t,s_{t+1})\)
当前存在的问题
- 轨迹内部的一些规律捕捉不准确,比如同一个序列内部,预算越来越低这个规律无法满足