Jiahong 的个人博客
凡事预则立,不预则废
Home
Tags
Archives
Navigation
Search
RL
Tag
NLP——LLM对齐微调-Pass@k-Training
NLP——LLM对齐微调-DPO-原始论文阅读
RL——DDPO
RL——Decision-Diffuser
RL——Decision-Transformer
RL——Diffuser
RL——Diffusion-QL
RL——QVPO
NLP——Secrets-of-RLHF(RewardModeling)
NLP——LLM对齐微调-RLHF
1
…
5
6
7
…
11