Multi-Teacher On-Policy Distillation

最近小米开源了新模型Mimo-v2-flash的技术报告,其中提出的Multi-Teacher On-Policy Distillation感觉有点业务价值,能够将多个teacher model的能力蒸馏到一个模型上,同时减少模型之间的性能差异。 ...

 2025-12-19        5 min        Rs        

Conversational Rewards

最近一些关于训练对话模型强化学习中奖励函数设计的工作,有一些启发,记录一下。 CURIO: Curiosity-driven User-modeling Reward as an Intrinsic Objective TLDR: 在做对话模型时,使用常规RL训练,其奖励函数对所有训练数据做相同的计算,优化的方向都一致,导致对于所有用户,模型的回复模式,方式都一致。这实际上对于对话模型(尤其是助手类/陪伴类对话模型)并不是最优解。 作者基于此引入belief update,模型通过用户每轮的回复,逐渐优化belief function,最终实现模型能够在对话中逐渐了解用户的特性/类型,从而给出更能让用户满意的回复。 ...

 2025-12-13        3 min        Rs        

Knowledge Distillation

KL-Based Divergences 给定两个离散分布$P(\mathcal C)$和$Q(\mathcal C)$,它们的KL散度定义为: $$ \mathcal D_{KL}(P\Vert Q)=\sum_{c\in\mathcal C}P(c)\log\frac{P(c)}{Q(c)} $$ 由于KL散度的不对称性:$\mathcal D_{KL}(P\Vert Q)\neq \mathcal D_{KL}(Q\Vert P)$,定义前向KL散度(forward KL)为$\mathcal D_{KL}(P\Vert Q)$,定义反向KL散度(reverse KL)为$\mathcal D_{KL}(Q\Vert P)$。 ...

 2025-11-01        4 min        Rs        

大模型post-training方法——强化学习篇

PPO PPO(Proximal Policy Optimization)算法出自Schulman et al.,在微调大模型中,该算法通过最大化以下目标函数来优化模型参数: ...

 2025-03-19        11 min        Rs        

GRPO From Scratch

简介 本篇博客基于Andriy Burkov的grpo开源代码,简单跑通GRPO的完整流程。使用的GPU资源为1张3090(24G)。原作者代码见:GRPO_From-Scratch以及GRPO_Qwen-0_5_Instruct。注:原作者使用8张80G A100完成实验。 ...

 2025-03-05        13 min        Rs        

DeepSeek-V3技术报告解读

1. 摘要 DeepSeek-V3,是一个Mixture-of-Experts(MoE)结构的大语言模型,参数量671B,其中每个token激活的参数量为37B。DeepSeek-V3主要采用Multi-head Latent Attention(MLA)和DeepSeekMoE结构,此外为了expert负载均衡引入了auxiliary-loss-free策略,为了更强的模型性能采用了multi-token prediction(MTP)训练策略。DeepSeek-V3预训练预料一共14.8T个token,并采用SFT和RL进一步对齐增强模型性能。DeepSeek-V3完整的训练一共仅需要2.788M H800 GPU hours。项目链接:DeepSeek-V3 ...

 2025-01-29        12 min        Rs        

DeepSeek-R1技术报告解读

1. 摘要 本次更新开源了DeepSeek-R1-Zero和DeepSeek-R1两个新旗舰reasoning模型,主要使用large-scale reinforcement learning且不需要SFT即完成训练,为开源社区给出了一个完全新颖且行之有效的reasoning LLM训练方案。其中DeepSeek-R1在reasoning任务上和OpenAI-o1-1217性能相当。除此之外,团队还开源了不同size的稠密模型(1.5B,7B,8B,14B,32B,70B),这些小模型是基于Qwen和Llama开源模型通过蒸馏DeepSeek-R1得到。 ...

 2025-01-27        9 min        Rs        

Deepspeed多机多卡训练&代码细节

本次使用的是多台8卡1080Ti服务器进行deepSpeed多机多卡实验。 Supervised finetuning 首先在主节点克隆deepspeed-chat仓库。 使用的主要环境: 1 2 3 4 5 6 7 8 9 pip install torch==1.13.0 pip install datasets pip install sentencepiece pip install protobuf==3.20.3 pip install accelerate pip install deepspeed==0.10.0 pip install transformers==4.44.2 pip install tensorboard pip install numpy==1.26.4 deepspeed安装需要有nvcc,开始这些1080Ti服务器没有nvcc,所以先装了这个: ...

 2024-10-30        14 min        Rs        

大模型post-training方法

1. DPO Rafailov et al. (2023)基于RLHF中PPO的优化式推导出最优奖励函数表达式:$r(x, y)=\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}+\beta logZ(x)$,将该奖励函数表达式带入BT-model得到DPO的损失函数表达式: ...

 2024-10-09        7 min        Rs