多模态大模型行业报告（41页）

行业报告下载 2024年01月25日 07:50 管理员

相比单模态，多模态大模型算法和工程难度更大，在表征、对齐、推理、生成、迁移、量化等环节均面临更多难点。预训练为多模态主流训练方式。由于高质量的多模态标注数据较少，基于Transformer结构的多模态预训练模型逐渐成为主流，通过海量无标注数据进行预训练，再使用少量有标注数据进行微调。原生多模态大模型是未来发展趋势，即设计时原生支持多模态，具有处理不同形式数据的能力，但各环节难度会更高。23年12月谷歌GEMINI即为原生多模态，一开始就在不同模态上进行预训练，利用额外的多模态数据进行微调以提升有效性，行业技术取得进一步突破。这一波大语言模型发展给多模态带来新突破：1）大语言模型LLM可充当大脑，处理各种模态信息，将其它模态信息对齐到LLM的语义空间。2）大语言模型在训练方式上给多模态模型提供前进方向参考，如自监督、预训练、上下文学习、指令遵循等。多模态大模型对算力的需求高于单模态。一般在同样信息量情况下，文字数据量<图片数据量<视频数据量，多模态大模型需处理的数据量更大，再加上训练工程上难点更多，对应算力需求更高。参考前深度学习时代向深度学习时代过渡，以及从“大炼模型”进入“炼大模型”切换之后，算力需求均有明显提升。根据机器之心，谷歌Gemini有万亿参数，训练动用的算力是 GPT-4 的五倍。未来随着算力需求的进一步提升，芯片制造、提供云服务以及模型微调的企业有望迎来更多发展机会。

多模态大模型行业报告（41页）