大模型post-training方法——强化学习篇
PPO PPO(Proximal Policy Optimization)算法出自Schulman et al.,在微调大模型中,该算法通过最大化以下目标函数来优化模型参数: ...
PPO PPO(Proximal Policy Optimization)算法出自Schulman et al.,在微调大模型中,该算法通过最大化以下目标函数来优化模型参数: ...
1. 摘要 本次更新开源了DeepSeek-R1-Zero和DeepSeek-R1两个新旗舰reasoning模型,主要使用large-scale reinforcement learning且不需要SFT即完成训练,为开源社区给出了一个完全新颖且行之有效的reasoning LLM训练方案。其中DeepSeek-R1在reasoning任务上和OpenAI-o1-1217性能相当。除此之外,团队还开源了不同size的稠密模型(1.5B,7B,8B,14B,32B,70B),这些小模型是基于Qwen和Llama开源模型通过蒸馏DeepSeek-R1得到。 ...