大型语言模型是生成或嵌入式文本的基础模型 (一种大型神经网络)。它们生成的文本可以通过为其 提供起点或“提示”来进行调节,从而使其能够用自然 语言或代...
2025-01-17 58 人工智能AI行业报告
Stable Diffusion 由三个主要模块组成,每个模块都由独立的神经网络实现: 1)文本编码器 (Text Encoder):采用 Transformer 模型,将文本中的每个词/Token 编 码为向量特征。2) 图像信息生成器 (Image Information Creator):Stable Diffusion 的核心部分,负责将文本编码后的向量特征与初始化噪声结合,生成包含图像信息的数组。 3)图像解码器 (Image Decoder): 将图像信息数组还原为清晰的图像。 DiTs 主要工作也就是 Sora 主要应用的部分,就是将第二部分,由 U-Net 替换成了 Transformer。换成 Transformer 的原因是,使用 Transformers 可以很好地保持原有的优 秀特性,比如可伸缩性、鲁棒性、高效性等,并且使用新的标准化架构可能在跨领域研究 上展现出更多的可能。Sora 的技术报告并未披露其 Transformer 的架构,紧跟着 Sora 推 出的 Google 的 Genie 和 Snap 的 Snap Videos 均采用了 ST-Transformer(Spatio-temporal Transformer),在模型的架构层也针对视频的时空性进行了优化。 Sora 证明了视频生成模型的 Scaling Law 正是因为采用了 Transformer,类似于 GPT3.0 发布的时候证明了大模型的能力可以随着算力的提升、模型规模的扩大而提升生成效果。 OpenAI 进行了 1x、4x、32x 算力情况下的生成效果对比,32x 算力生成的视频明显好于更 低算力的结果。截止到 2024 年 3 月初,我们跟踪了国内外推出的大模型,可以发现模型机构和公司的竞 争在加剧,推出新的大模型的速度在加快。我们总结出以下几点趋势: 1)长上下文(Long-Context):最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token,对训练和推理时的内存容量和算力提出更高要求。 2)多模态(Multi-Modal):理解图片、视频、音频信息是大模型的确定趋势,这些信息 同样有这更大的 Token 数量,也会增大内存容量的需求。 3)MOE(Mixture-of-Experts):越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的 模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模,MOE 的多个子模型能够处理 不同问题,虽然也会增加参数数量,但是在推理时只调用部分子模型,增加计算效率。
标签: 人工智能AI行业报告
相关文章
大型语言模型是生成或嵌入式文本的基础模型 (一种大型神经网络)。它们生成的文本可以通过为其 提供起点或“提示”来进行调节,从而使其能够用自然 语言或代...
2025-01-17 58 人工智能AI行业报告
大模型快速发展,网信办数据显示,截至2024年7月30日,全国范围内通过登记备案的行业大模型有136款,占比达69%。行业大 模型深度赋能教育、金融、...
2025-01-08 76 人工智能AI行业报告
生成式AI也在加速赋能广告制作环节。今年业绩和股价爆发的AppLovin和汇量科技,主要关注的是决策式 AI在程序化广告平台的技术突破,提升广告投放精...
2025-01-06 105 人工智能AI行业报告
纵观历史50年,五次半导体市场规模迅猛成长均伴随爆款电子产品的普及。自1976年起,全球半导体市场历经了5次迅猛成长,分别由台式电脑(1983~198...
2025-01-05 89 人工智能AI行业报告
先进封装:受AI芯片大面积需求带动,2.5D先进封装于2023至2024年供不应 求情况明显,据TrendForce预估,2025年晶圆代工厂配套提供...
2025-01-05 97 人工智能AI行业报告
针对外贸 B2B 垂类场景的AI助手AI麦可:截至2024/6/30,购买AI麦可的会员共6095 位(不含试用体验包客户),较2024年一季度末增加...
2025-01-04 67 人工智能AI行业报告
最新留言