Rs' Log
  • Posts
  • Archive
  • Search
  • Tags
  • FAQ

Welcome to Rs' Log

Hi, this is Rs, I am documenting my learning notes here. Stay turned!

Deepspeed多机多卡训练&代码细节

本次使用的是多台8卡1080Ti服务器进行deepSpeed多机多卡实验。 Supervised finetuning 首先在主节点克隆deepspeed-chat仓库。 使用的主要环境: 1 2 3 4 5 6 7 8 9 pip install torch==1.13.0 pip install datasets pip install sentencepiece pip install protobuf==3.20.3 pip install accelerate pip install deepspeed==0.10.0 pip install transformers==4.44.2 pip install tensorboard pip install numpy==1.26.4 deepspeed安装需要有nvcc,开始这些1080Ti服务器没有nvcc,所以先装了这个: ...

 2024-10-30        14 min        Rs        

大模型post-training方法

1. DPO Rafailov et al. (2023)基于RLHF中PPO的优化式推导出最优奖励函数表达式:$r(x, y)=\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}+\beta logZ(x)$,将该奖励函数表达式带入BT-model得到DPO的损失函数表达式: ...

 2024-10-09        7 min        Rs        
« Prev 
© 2026 Rs' Log Powered by Hugo & PaperMod