CS Notes

❯

❯

❯

❯

RLHF

2026年3月20日1分钟阅读

https://huggingface.co/blog/zh/rlhf

预训练一个语言模型 (LM) ；
聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；
用强化学习 (RL) 方式微调 LM。

关系图谱

Created with Quartz v1.0.0 © 2026

GitHub