人工智能深度报告：DeepSeek研究框架（53页）

行业报告下载 2025年02月20日 16:03 管理员

DeepSeek-V3 为自研 MoE 模型，671B 参数，激活 37B，在 14.8Ttoken上进行了预训练。V3多项评测成绩超越了 Qwen2.5- 72B 和 Llama-3.1-405B 等其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。在具体的测试集上，DeepSeek-V3在知识类任务上接近当前表现最好的模型 Claude-3.5-Sonnet-1022；长文本/代码/数学/中文能力上均处于世界一流模型位置。DeepSeek-R1性能比较OpenAI-o1。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。DeepSeek R1同步登录DeepSeek官网或官方App。网页或者app端打开“深度思考”模式，即可调用最新版 DeepSeek-R1 完成各类推理任务。开放的许可证和用户协议。DeepSeek在发布并开源 R1 的同时，同步在协议授权层面也进行了如下调整：1）模型开源 License 统一使用 MIT，开源仓库（包括模型权重）统一采用标准化、宽松的 MIT License，完全开源，不限制商用，无需申请。2）产品协议明确可“模型蒸馏” ；为了进一步促进技术的开源和共享，支持用户进行“模型蒸馏”，明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。