生成式人工智能行业报告：海外大模型篇（47页）

行业报告下载 2024年05月22日 06:28 管理员

随着人工智能技术的不断发展，其应用场景日益丰富，各行各业所汇聚的庞大数据资源为技术的实际应用和持续完善提供了坚实基础。根据第三方咨询机构格物致胜的统计数据，2022年中国人工智能市场规模达到2058亿元，预计2023-2027年市场规模将保持28.2%的复合增长率，2027年中国人工智能市场规模将达到7119亿元。根据statista的统计数据，2023年全球人工智能市场规模达2079亿美元，预计2030年将增至18475亿美元。多模态较单一模态更进一步，已经成为大模型主战场。人类通过图片、文字、语言等多种途径来学习和理解，多模态技术也是通过整合多种模态、对齐不同模态之间的关系，使信息在模态之间传递。2023年以来，OpenAI发布的GPT-4V、Google发布的Gemini、 Anthropic发布的Claude 3均为多模态模型，展现出了出色的多模态理解及生成能力。未来，多模态有望实现any to any模态的输入和输出，包括文本、图像、音频、视频、3D模型等多种模态。多模态大型语言模型(MLLMs)的通用架构，由1) 视觉编码器(Visual Encoder)、2) 语言模型(Language Model)和3) 适配器模块 (Adapter Module)组成。1) 负责处理和理解输入的视觉信息，通常使用预训练的视觉模型，如Vision Transformer(ViT)或其他卷积神经网络(CNN)架构，来提取图像特征；2) 负责处理文本输入，理解和生成自然语言，语言模型基于Transformer架构，如BERT或GPT 系列模型；3) 负责在视觉和语言模态之间建立联系。3D生成技术应用广阔，但仍处在技术临界点以前。3D生成技术可广泛应用于3D虚拟人、3D人脸、3D场景等领域，目前3D生成的主流技术路径大致可分为：1) text-to-2D，再通过NeRF或Diffusion模型完成2D-to-3D，或直接通过2D素材完成3D建模；2) 直接text-to- 3D，该路径直接使用3D数据进行训练，从训练到微调到推理都基于3D数据。当大模型迁移到机器人身上，大模型的智能和泛化能力有望点亮通用机器人的曙光。2023年7月，谷歌推出机器人模型Robotics Transformer 2(RT-2)，这是一个全新的视觉-语言-动作(VLA)模型，从网络和机器人数据中学习，并将这些知识转化为机器人控制的通用指令。2024年3月，机器人初创企业Figure展示了基于OpenAI模型的全尺寸人形机器人Figure 01，机器人动作流畅，所有行为都是学到的（不是远程操作），并以正常速度(1.0x)运行。