DeepSeek研究报告：推动AI大模型行业创新（22页）

行业报告下载 2025年04月09日 08:51 管理员

首先，DeepSeek 的通用模型 V3 和推理模型 R1 均具备比肩头部 AI 大模型的性能。根据 DeepSeek，其 V3 在数学、编程等能力测试上超过 GPT-4o 的能力（图表 2），在多语言多任务、研究生能力测试、软件等能力方面也与头部模型能力接近，好于优秀的开源模型。今年年初以来，其大幅吸引流量的DeepSeek-R1的模型能力与V3比较类似，在数学、编程的能力超过 OpenAI-o1（图表 3），而其余能力也接近最强模型的能力，优于中部排名的模型能力。这是中国的 AI 大模型第一次如此接近，甚至超过海外 AI 大模型的性能。 DeepSeek 在多个技术点存在创新，包括 GRPO 算法、DeepSeekMoE 架构、 MLA 机制、FP8 精度、MTP 方法等。通过这些方式，DeepSeek 在有限算力（与海外头部大量算力比较下）的情况下，实现更加优秀的模型性能。其次，DeepSeek 的成本也大幅低于其性能可比的 AI 大模型。我们有一个基本判断，即目前 AI 大模型行业仍然处于发展的初期阶段，AI 大模型厂商作为供应端推动行业快速成长，从而去推动 AI 大模型的成本下降。OpenAI、字节、阿里等 AI 大模型这两年的价格符合这一基本趋势（图表 4）。