Jiahong 的个人博客
凡事预则立,不预则废
Home
Tags
Archives
Navigation
Search
RL
Tag
NLP——LLM对齐微调-FP16-Defeats-Training-Inference-Mismatch
NLP——LLM对齐微调-MaMs
NLP——LLM对齐微调-Rationale-Consistency
NLP——LLM对齐微调-Rubric-ARM
NLP——MemRL
NLP——LLM对齐微调-RL-Collapse-Training-Inference-Mismatch(Sequence-level-MIS)
NLP——LLM对齐微调-Rethinking-KL-Regularization
NLP——LLM-Rubric-RL相关总结
NLP——LLM对齐微调-VC-PPO
NLP——LLM对齐微调-SDPO
1
2
3
…
12