DeepSeek专题研究报告：互联网大厂如何受益于DeepSeek（30页）

行业报告下载 2025年02月20日 16:01 管理员

DeepSeek 的旗舰推理模型R1 在多个基准测试中的表现超越当下全球 AI行业领先的推理模型 OpenAI-o1。根据 DeepSeek-R1 公开的技术报告，经过额外的 SFT 阶段和进一步的 RL 训练完善后的 R1，在 AIME 2024、MATH-500、LiveCode Bench、CodeForces 等多个数学、编程测试集中获得超越 OpenAI 的 o1 系列的分数，仅在考察物理化学生物的 GPQA Diamond 数据集上逊色于 OpenAI-o1-0912。DeepSeek-R1 在开发人员和使用者中收获高评价，其在 Chatbot Arena 榜单中位居前列，超过 OpenAI-o1。Chatbot Arena 是一个基于人类偏好评估 LLM 的开放平台，其方法采用成对比较方法，用户只需投票比较两个模型响应并投票选出更好的一个，平台通过众包利用来自不同用户群的输入，截至 2025 年 2 月 9 日，平台共收集到超过 260 万次用户的投票。尽管 DeepSeek-R1 上线时间较晚，尚未收集到足够多的投票次数（共 4193 次，前十名的模型中最少），但仍获得 1361 分的 Arena Elo 分数，超过 OpenAI-o1，仅次于 Gemini 的两款模型和最新版的 ChatGPT-4o。