Rs' Log

RAG路线

Retrieval-Augmented Generation for Large Language Models: A Survey 1. Overview of RAG 典型的RAG模型如图1所示图1: 经典RAG模型 1.1 Naive RAG Naive RAG为传统的RAG方法，主要流程包括：索引，检索，生成。 ...

强化学习笔记

1. 基本概念，公式策略$\pi$，状态$s\in\mathcal S$，动作$a\in\mathcal A$，奖励$r\in\mathcal R$ 转移函数$P$给出当采取行动$a$从状态$s$转移到$s^\prime$，同时获得奖励$r$的概率 ...

本次使用的是多台8卡1080Ti服务器进行deepSpeed多机多卡实验。 Supervised finetuning 首先在主节点克隆deepspeed-chat仓库。使用的主要环境： 1 2 3 4 5 6 7 8 9 pip install torch==1.13.0 pip install datasets pip install sentencepiece pip install protobuf==3.20.3 pip install accelerate pip install deepspeed==0.10.0 pip install transformers==4.44.2 pip install tensorboard pip install numpy==1.26.4 deepspeed安装需要有nvcc，开始这些1080Ti服务器没有nvcc，所以先装了这个： ...

大模型post-training方法

1. DPO Rafailov et al. (2023)基于RLHF中PPO的优化式推导出最优奖励函数表达式：$r(x, y)=\beta log\frac{\pi_\theta(y|x)}{\pi_{ref}(y|x)}+\beta logZ(x)$，将该奖励函数表达式带入BT-model得到DPO的损失函数表达式： ...

Welcome to Rs' Log

RAG路线

强化学习笔记

Deepspeed多机多卡训练&代码细节

大模型post-training方法