deepseek技术全景解析报告（51页）

行业报告下载 2025年03月24日 09:57 管理员

根据DeepSeek团队在论文中强调，通过优化算法、框架和硬件的协同设计实现的。在预训练阶段，每万亿个token上训练 DeepSeek-V3只需要180KH800GPU小时，也就是说，在其拥有2048个H800GPU的集群上只需要3.7天，因此，公司的预训练阶段在不到两个月的时间内完成，花费了2664KGPU小时。加上上下文长度扩展的119KGPU小时和后训练的5KGPU小时， DeepSeek-v3完整训练仅花费278.8万GPU小时。假设H800GPU的租赁价格为每小时2美元，则代表看其总训练成本仅为55了.6方美元。相比同等规模的模型（如GPT-4、GPT-40. Llama3.1），训练成本大幅降低。但DeepSeek团队还特意强调，上述成本仅包括DeepSeek-v3的官方训练，不包括与架构，算法或数据的先前研究和消融实验相关的成本。