[Download]资源名称:Deepseek报告:AI狂潮下计算机行业的颠覆与重生(28页)...
2025-03-29 7 人工智能AI行业报告
大模型的训练效果、成本和时间与算力资源有密切 的关系。大模型发展浪潮有望进一步增加 AI 行业对智 算算力的需求规模。 1.1.1 国外大模型的发展 大模型数量加速增长,算力成为模型竞赛底座。自 2018 年以来,海外云厂商巨头接连发布 NLP 大模型。 据赛迪顾问 2023 年 7 月发布的数据显示,海外大模型 发布数量逐年上升,年发布数量在五年中由 2 个增长至 48 个。且仅 2023 年 1-7 月就发布了 31 个大模型。 自 2021 年起,海外大模型数量呈现加速增长的趋 势,结合 2023 年 1-7 月的情况,该趋势有望延续。2018 年 6 月, OpenAI 发布了 Transformer 模型 ——GPT-1,训练参数量 1.2 亿。同年 10 月,谷歌发布 了大规模预训练语言模型 BERT,参数量超过 3 亿。 2019 年,OpenAI 推出 15 亿参数的 GPT-2。2019 年 9 月,英伟达推出了 83 亿参数的 Megatron-LM。同 年,谷歌推出了 110 亿参数的 T5,微软推出了 170 亿 参数的图灵 Turing-NLG。 2020 年,OpenAI 推出了大语言训练模型 GPT-3, 参数达到 1750 亿。微软和英伟达在同年 10 月联合发 布了 5300 亿参数的 Megatron-Turing 大模型。 2021 年 1 月,谷歌推出 Switch Transformer 模型, 参数量达到 1.6 万亿,大模型参数量首次突破万亿。 2022 年,OpenAI 推出基于 GPT-3.5 大模型的 ChatGPT,宣告了 GPT-3.5 版本的存在。 2023 年,OpenAI 推出 GPT-4,估计参数规模达到 1.8 万亿。GPU 数量与不同量级大模型所需的算力之间的线 性关系。根据 2021 年 8 月 Deepak Narayanan 等人发布 的论文,随着模型参数增加,大模型训练需要的总浮点 数与 GPU 数量呈现正相关的线性关系。175B 参数量级 的大模型所需的 A100 级别芯片数量为 1024 片(Token 数为 300B,训练 34 天情况下)。当参数增长到 1T 时, 大模型训练所需的 A100 芯片数量为 3072 片(Token 数 为 450B,训练 84 天情况下)。
标签: 人工智能AI行业报告
相关文章
[Download]资源名称:Deepseek报告:AI狂潮下计算机行业的颠覆与重生(28页)...
2025-03-29 7 人工智能AI行业报告
结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 34 人工智能AI行业报告
大模型商业生态推动端侧场景落地。过去 ChatGPT 引领了全球 AI 产业,国 内外公司纷纷布局 AI 赛道。国内多家厂商探索商业化路径,在激烈竞争...
2025-03-25 40 人工智能AI行业报告
根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练 DeepSeek-V3只需要1...
2025-03-24 75 人工智能AI行业报告
大模型军备竞赛,编程能力跃进,为 AI 编码应用繁荣夯实基础底座。Claude 3.5 sonnet (new 在 HumanEval 代...
2025-03-24 46 人工智能AI行业报告
在计算架构层面,大模型的训练和应用通常需要处理大规模的数据集,这将增加对于高带宽的需求,以执行数据 并行、流水线并行及张量并行等策略。为了满足大模型对...
2025-03-21 36 人工智能AI行业报告
最新留言