Deepseek专题报告：国产AI应用的“诺曼底时刻”（34页）

行业报告下载 2025年02月08日 14:25 管理员

DeepSeek R1的技术关键在于其创新的训练方法。与OpenAI依赖人工干预的数据训练方式不同，DeepSeek R1采用了 R1-Zero路线，直接将强化学习应用于基础模型，无需依赖监督微调（SFT）和已标注数据。  R1的总体训练过程如下：1）从base模型开始：使用量少、质量高的冷启动数据(cold data)来sft base模型，使得base模型可以有个良好的初始化；使用RL提升模型的推理能力；在RL阶段接近收敛时，用这个时候的checkpoint生成高质量的数据，将它们与现有的sft数据混合，创建新的sft数据集；2）再次从base模型开始：使用新创建的sft数据集做finetune；执行二阶段RL；得到最终的r1。