[Download]资源名称:DeepSeek专题报告:通信算力降本增效(30页)...
2025-03-31 29 人工智能AI行业报告
Stable Diffusion 由三个主要模块组成,每个模块都由独立的神经网络实现: 1)文本编码器 (Text Encoder):采用 Transformer 模型,将文本中的每个词/Token 编 码为向量特征。2) 图像信息生成器 (Image Information Creator):Stable Diffusion 的核心部分,负责将文本编码后的向量特征与初始化噪声结合,生成包含图像信息的数组。 3)图像解码器 (Image Decoder): 将图像信息数组还原为清晰的图像。 DiTs 主要工作也就是 Sora 主要应用的部分,就是将第二部分,由 U-Net 替换成了 Transformer。换成 Transformer 的原因是,使用 Transformers 可以很好地保持原有的优 秀特性,比如可伸缩性、鲁棒性、高效性等,并且使用新的标准化架构可能在跨领域研究 上展现出更多的可能。Sora 的技术报告并未披露其 Transformer 的架构,紧跟着 Sora 推 出的 Google 的 Genie 和 Snap 的 Snap Videos 均采用了 ST-Transformer(Spatio-temporal Transformer),在模型的架构层也针对视频的时空性进行了优化。 Sora 证明了视频生成模型的 Scaling Law 正是因为采用了 Transformer,类似于 GPT3.0 发布的时候证明了大模型的能力可以随着算力的提升、模型规模的扩大而提升生成效果。 OpenAI 进行了 1x、4x、32x 算力情况下的生成效果对比,32x 算力生成的视频明显好于更 低算力的结果。截止到 2024 年 3 月初,我们跟踪了国内外推出的大模型,可以发现模型机构和公司的竞 争在加剧,推出新的大模型的速度在加快。我们总结出以下几点趋势: 1)长上下文(Long-Context):最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token,对训练和推理时的内存容量和算力提出更高要求。 2)多模态(Multi-Modal):理解图片、视频、音频信息是大模型的确定趋势,这些信息 同样有这更大的 Token 数量,也会增大内存容量的需求。 3)MOE(Mixture-of-Experts):越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的 模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模,MOE 的多个子模型能够处理 不同问题,虽然也会增加参数数量,但是在推理时只调用部分子模型,增加计算效率。
标签: 人工智能AI行业报告
相关文章
根据ARK Invest报告显示,“AI+情感陪伴”的市场规模将扩大2300-5000倍,从现在的全球年收入 3000 万美元增至 700 亿至 15...
2025-03-30 35 人工智能AI行业报告
[Download]资源名称:Deepseek报告:AI狂潮下计算机行业的颠覆与重生(28页)...
2025-03-29 35 人工智能AI行业报告
结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 44 人工智能AI行业报告
大模型商业生态推动端侧场景落地。过去 ChatGPT 引领了全球 AI 产业,国 内外公司纷纷布局 AI 赛道。国内多家厂商探索商业化路径,在激烈竞争...
2025-03-25 44 人工智能AI行业报告
根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练 DeepSeek-V3只需要1...
2025-03-24 80 人工智能AI行业报告
最新留言