通信专题报告：Deepseek引爆通信产业新机遇（20页）

行业报告下载 2025年02月24日 10:14 管理员

DeepSeek大幅降低了应用成本。DeepSeek-V3的训练成本仅为2.788M H800 GPU小时，同时其支持FP8混合精度训练，并针对训练框架进行了全面优化，以实现加速训练和降低GPU内存使用，通过算法、框架和硬件的共同设计，克服了跨节点MoE训练中的通信瓶颈，显著提高了训练效率并降低了训练成本。 DeepSeek每百万输入tokens成本为0.55美元，每百万输出tokens成本为2.19美元，相较于ChatGPT O1模型，输入和输出成本均降低了96%。 DeepSeek通过创新算法使推理效率大幅优化。DeepSeek-V3采用了多头潜在注意力（Multi-head Latent Attention，MLA）和DeepSeekMoE架构，显著提高了推理速度和显存利用率，能够在保持模型性能的同时实现高效的训练和推理。MLA架构能够大幅提升模型推理效率。MLA（Multi-head Latent Attention）跨层注意力特征融合架构架构是DeepSeek模型中的一种注意力机制优化技术，通过低秩联合压缩注意力键（Key）和值（Value），显著降低了推理过程中的KV缓存，同时保持了与标准多头注意力（MHA）相当的性能。MLA架构在保持模型性能的同时，通过压缩技术减少了内存占用和计算量，从而提高了模型的推理效率。 MoE稀疏化能够控制激活参数数量，提升模型计算效率。MoE（Mixture of Experts）通过将模型划分为多个“专家”模块，每个专家专注于处理特定的任务或数据子集。在训练和推理过程中，只有部分专家被激活，从而减少了不必要的计算。MoE架构能够显著降低计算开销，提高模型的训练和推理效率。此外，MoE架构还具有高度的可扩展性，通过增加专家的数量，可以进一步提升模型的性能，而不会显著增加计算成本。