AI大模型行业报告：多模态大模型（29页）

行业报告下载 2024年03月28日 07:00 管理员

相比单模态，多模态大模型同时处理文本、图片、音频以及视频等多类信息，与现实世界融合度高，更符合人类接收、处理和表达信息的方式，与人类交互方式更加灵活，表现的更加智能，能够执行更大范围的任务，有望成为人类智能助手，推动 AI 迈向 AGI。就技术架构而言，多模态技术可拆解为编码、对齐、解码与微调等步骤，逐步挖掘多模态关联信息，输出目标结果。文生图 CLIP 模型为最先成熟的多模态技术，目前，多模态已不再局限于图文两层信息。例如， Meta-Transformer 可同时理解并处理 12 种模态信息。  OpenAI 谷歌开启多模态军备竞赛，Sora 和 Gemini 各领风骚海外龙头具备先发与技术优势，引领多模态大模型前进方向：1） OpenAI 近期密集剧透 GPT-5，相比 GPT-4 实现全面升级，重点突破语音输入和输入、图像输出以及最终的视频输入方向，或将实现真正多模态；此外，2 月发布文生视频大模型 Sora，能够根据文本指令或静态图像生成 1 分钟的视频，其中包含精细复杂的场景、生动的角色表情以及复杂的镜头运动，同时也接受现有视频扩展或填补缺失的帧，能够很好地模拟和理解现实世界。2）Google 推出原生多模态大模型 Gemini，可泛化并无缝地理解、操作和组合不同类别的信息；此外，2 月推出 Gemini 1.5 Pro，使用 MoE 架构首破 100 万极限上下文纪录，可单次处理包括 1 小时的视频、11 小时的音频、超过 3 万行代码或超过 70 万个单词的代码库。3）Meta 坚持大模型开源，建设开源生态巩固优势，已陆续开源 ImageBind、AnyMAL 等多模态大模型。国内大模型厂商有望沿着复制海外先进技术与发挥生态禀赋优势的两大路径，与海外大厂逐步缩小差距。