用户需求明确:只需要帮助企业降本增效,即长期来看提升的产能大于投入的成本(ROI>1),就会有望形成付费,指标更容易量化; 对产品体验的要求较低...
2024-05-08 31 人工智能AI行业报告
Stable Diffusion 由三个主要模块组成,每个模块都由独立的神经网络实现: 1)文本编码器 (Text Encoder):采用 Transformer 模型,将文本中的每个词/Token 编 码为向量特征。2) 图像信息生成器 (Image Information Creator):Stable Diffusion 的核心部分,负责将文本编码后的向量特征与初始化噪声结合,生成包含图像信息的数组。 3)图像解码器 (Image Decoder): 将图像信息数组还原为清晰的图像。 DiTs 主要工作也就是 Sora 主要应用的部分,就是将第二部分,由 U-Net 替换成了 Transformer。换成 Transformer 的原因是,使用 Transformers 可以很好地保持原有的优 秀特性,比如可伸缩性、鲁棒性、高效性等,并且使用新的标准化架构可能在跨领域研究 上展现出更多的可能。Sora 的技术报告并未披露其 Transformer 的架构,紧跟着 Sora 推 出的 Google 的 Genie 和 Snap 的 Snap Videos 均采用了 ST-Transformer(Spatio-temporal Transformer),在模型的架构层也针对视频的时空性进行了优化。 Sora 证明了视频生成模型的 Scaling Law 正是因为采用了 Transformer,类似于 GPT3.0 发布的时候证明了大模型的能力可以随着算力的提升、模型规模的扩大而提升生成效果。 OpenAI 进行了 1x、4x、32x 算力情况下的生成效果对比,32x 算力生成的视频明显好于更 低算力的结果。截止到 2024 年 3 月初,我们跟踪了国内外推出的大模型,可以发现模型机构和公司的竞 争在加剧,推出新的大模型的速度在加快。我们总结出以下几点趋势: 1)长上下文(Long-Context):最新的模型如 Gemini1.5 和 Kimi 支持到百万级别的 Token,对训练和推理时的内存容量和算力提出更高要求。 2)多模态(Multi-Modal):理解图片、视频、音频信息是大模型的确定趋势,这些信息 同样有这更大的 Token 数量,也会增大内存容量的需求。 3)MOE(Mixture-of-Experts):越来越多模型包括 Mixtral、Gemini1.5 和 Grok 在内的 模型在应用 GPT 的 MOE 提升效果。除了直接扩大参数规模,MOE 的多个子模型能够处理 不同问题,虽然也会增加参数数量,但是在推理时只调用部分子模型,增加计算效率。
标签: 人工智能AI行业报告
相关文章
用户需求明确:只需要帮助企业降本增效,即长期来看提升的产能大于投入的成本(ROI>1),就会有望形成付费,指标更容易量化; 对产品体验的要求较低...
2024-05-08 31 人工智能AI行业报告
作为企业的关键决策者,CEO 往往要面对和处理最棘手的问题⸺而这些问题的解决方 式通常决定了一个组织的未来。 我们正迎来生成式 AI 的决定性时刻。在...
2024-05-05 43 人工智能AI行业报告
2023年初至今,大模型技术发展突飞猛进,已逐步渗透至工业领域诸多环节,涵盖了知识问答、工程建 模、数据分析、文档生成、代码理解等场景,正快速成长为工...
2024-05-03 33 人工智能AI行业报告
近期 AI+3D 新产品产业催化汇总。英伟达 CEO: NVIDIA 3D 平台 Omniverse Cloud 将可以连接到苹果公司混合头显 Vis...
2024-05-02 30 人工智能AI行业报告
360AI 浏览器是一款由北京奇虎科技有限公司设计研发的产品,2024 年 1 月 29 日,360 集 团全新升级的大模型搜索产品“360 AI 搜...
2024-04-29 40 人工智能AI行业报告
从单次Query算力成本的影响因素来看,推理算力 与一次生成内容的tokens、模型参数量和迭代次数 成正比。根据扩散Transformer论文一作作...
2024-04-27 55 人工智能AI行业报告
最新留言