DeepSeek与清华研究提升奖励模型推理时可扩展性

2025-04-07

近日,DeepSeek和清华研究者发布新论文,提出自我原则点评调优(SPCT)学习方法及引入元奖励模型(meta RM),以提升奖励模型推理时可扩展性。SPCT方法分为拒绝式微调与基于规则的在线强化学习两阶段,显著提高了GRM的质量和扩展性。实验结果显示,基于SPCT训练的DeepSeek – GRM -27B在多个基准测试中表现优异,且推理时扩展策略有效提升了其性能。

完 谢谢观看