首页 行业报告下载文章正文

Deepseek专题报告:国产AI应用的“诺曼底时刻”(34页)

行业报告下载 2025年02月08日 14:25 管理员

 DeepSeek R1的技术关键在于其创新的训练方法。与OpenAI依赖人工干预的数据训练方式不同,DeepSeek R1采用了 R1-Zero路线,直接将强化学习应用于基础模型,无需依赖监督微调(SFT)和已标注数据。  R1的总体训练过程如下:1)从base模型开始:使用量少、质量高的冷启动数据(cold data)来sft base模型,使得base模 型可以有个良好的初始化;使用RL提升模型的推理能力;在RL阶段接近收敛时,用这个时候的checkpoint生成高质量的数 据,将它们与现有的sft数据混合,创建新的sft数据集;2)再次从base模型开始:使用新创建的sft数据集做finetune;执 行二阶段RL;得到最终的r1。

Deepseek专题报告:国产AI应用的“诺曼底时刻”(34页)

文件下载
资源名称:Deepseek专题报告:国产AI应用的“诺曼底时刻”(34页)


标签: 人工智能AI行业报告

并购家 关于我们   意见反馈   免责声明 网站地图

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式