首页 行业报告下载文章正文

AI模型研究报告:从世界模型看算力需求变化(21页)

行业报告下载 2024年05月09日 08:17 管理员

Stable Diffusion 由三个主要模块组成,每个模块都由独立的神经网络实现: 1)文本编码器 (Text Encoder):采用 Transformer 模型,将文本中的每个词/Token 编 码为向量特征。2) 图像信息生成器 (Image Information Creator):Stable Diffusion 的核心部分,负责将文本编码后的向量特征与初始化噪声结合,生成包含图像信息的数组。 3)图像解码器 (Image Decoder): 将图像信息数组还原为清晰的图像。 DiTs 主要工作也就是 Sora 主要应用的部分,就是将第二部分,由 U-Net 替换成了 Transformer。换成 Transformer 的原因是,使用 Transformers 可以很好地保持原有的优 秀特性,比如可伸缩性、鲁棒性、高效性等,并且使用新的标准化架构可能在跨领域研究 上展现出更多的可能。Sora 的技术报告并未披露其 Transformer 的架构,紧跟着 Sora 推 出的 Google 的 Genie 和 Snap 的 Snap Videos 均采用了 ST-Transformer(Spatio-temporal  Transformer),在模型的架构层也针对视频的时空性进行了优化。 Sora 证明了视频生成模型的 Scaling Law 正是因为采用了 Transformer,类似于 GPT3.0 发布的时候证明了大模型的能力可以随着算力的提升、模型规模的扩大而提升生成效果。 OpenAI 进行了 1x、4x、32x 算力情况下的生成效果对比,32x 算力生成的视频明显好于更 低算力的结果。截止到 2024 年 3 月初,我们跟踪了国内外推出的大模型,可以发现模型机构和公司的竞 争在加剧,推出新的大模型的速度在加快。我们总结出以下几点趋势: 1)长上下文(Long-Context):最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token,对训练和推理时的内存容量和算力提出更高要求。 2)多模态(Multi-Modal):理解图片、视频、音频信息是大模型的确定趋势,这些信息 同样有这更大的 Token 数量,也会增大内存容量的需求。 3)MOE(Mixture-of-Experts):越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的 模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模,MOE 的多个子模型能够处理 不同问题,虽然也会增加参数数量,但是在推理时只调用部分子模型,增加计算效率。

AI模型研究报告:从世界模型看算力需求变化(21页)

文件下载
资源名称:AI模型研究报告:从世界模型看算力需求变化(21页)


标签: 人工智能AI行业报告

并购家 关于我们   意见反馈   免责声明 网站地图 京ICP备12009579号-9

分享

复制链接

ipoipocn@163.com

发送邮件
电子邮件为本站唯一联系方式