AI模型研究报告：从世界模型看算力需求变化（21页）

行业报告下载 2024年05月09日 08:17 管理员

Stable Diffusion 由三个主要模块组成，每个模块都由独立的神经网络实现： 1）文本编码器 (Text Encoder)：采用 Transformer 模型，将文本中的每个词/Token 编码为向量特征。2）图像信息生成器 (Image Information Creator)：Stable Diffusion 的核心部分，负责将文本编码后的向量特征与初始化噪声结合，生成包含图像信息的数组。 3）图像解码器 (Image Decoder)：将图像信息数组还原为清晰的图像。 DiTs 主要工作也就是 Sora 主要应用的部分，就是将第二部分，由 U-Net 替换成了 Transformer。换成 Transformer 的原因是，使用 Transformers 可以很好地保持原有的优秀特性，比如可伸缩性、鲁棒性、高效性等，并且使用新的标准化架构可能在跨领域研究上展现出更多的可能。Sora 的技术报告并未披露其 Transformer 的架构，紧跟着 Sora 推出的 Google 的 Genie 和 Snap 的 Snap Videos 均采用了 ST-Transformer（Spatio-temporal Transformer），在模型的架构层也针对视频的时空性进行了优化。 Sora 证明了视频生成模型的 Scaling Law 正是因为采用了 Transformer，类似于 GPT3.0 发布的时候证明了大模型的能力可以随着算力的提升、模型规模的扩大而提升生成效果。 OpenAI 进行了 1x、4x、32x 算力情况下的生成效果对比，32x 算力生成的视频明显好于更低算力的结果。截止到 2024 年 3 月初，我们跟踪了国内外推出的大模型，可以发现模型机构和公司的竞争在加剧，推出新的大模型的速度在加快。我们总结出以下几点趋势： 1）长上下文(Long-Context)：最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token，对训练和推理时的内存容量和算力提出更高要求。 2）多模态(Multi-Modal)：理解图片、视频、音频信息是大模型的确定趋势，这些信息同样有这更大的 Token 数量，也会增大内存容量的需求。 3）MOE(Mixture-of-Experts)：越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模，MOE 的多个子模型能够处理不同问题，虽然也会增加参数数量，但是在推理时只调用部分子模型，增加计算效率。