在 U-ViT 前,Diffusion 模型中的主流主干(backbone)一直为基于 CNN 的 U-Net。U-net 是 2015 年的论文《U...
2024-05-16 27 人工智能AI行业报告
现阶段大模型在处理任务的广泛性上还有很大提升空间,虽然 GPT-4、Gemini 1.5、Claude 3 等模型已经能够处理文本、图像、视频等多模态输入,但尚未具备独立决策和执行行动 的能力。此外,现阶段更多的模型仍聚焦在某单一领域进行性能提升,比如 Kimi 在处理 长文本输入领域表现突出,但尚不能进行图片生成;Sora 能够高质量完成文生视频任务, 但不具备问答功能。因此,现阶段评价大模型性能情况、分析模型演进方向,仍需根据模 型专长领域进行分类。将语言大模型的底层框架和训练方式应用于机器人的感知、决策、控制成为现阶段重 要趋势。2021 年 OpenAI 推出基于 Transformer 架构和对比学习方法的 VLM(视觉 -语言模型)CLIP;2022 年起,谷歌先后推出 RT-1/RT-2/RT-X/RT-H 系列模型,同 样采用 Transformer 架构,能够将语言描述的任务映射为机器人行动策略;24 年 3 月,初创公司 Figure 与 OpenAI 合作推出机器人 Figure01,由 OpenAI 提供视觉推 理和语言理解能力,Figure01 能够描述看到的一切情况、规划未来的行动、语音输 出推理结果等。语言大模型能力相对完备,底层技术路线大多选择 Transformer Decoder-only 架构, 结合MOE和多模态embedding,算法细节优化方向区别较小。以GPT-4、Gemini 1.5、 Claude 3 为例,语言大模型在推理、长文本、代码生成领域已经能够完成初级任务, 但距复杂、专业水平仍有差距; 多模态大模已经能够面向 B\C 端提供商业化产品,底层技术路线主要采用 Diffusion Transformer,但细节优化空间较大,高质量和成规模的数据集仍在发展初期; 具身智能类大模还在探索阶段,底层技术路线尚不清晰,数据收集、训练方法、测评 方法等都处于发展初期。在实际应用场景中准确率较低。
标签: 人工智能AI行业报告
相关文章
在 U-ViT 前,Diffusion 模型中的主流主干(backbone)一直为基于 CNN 的 U-Net。U-net 是 2015 年的论文《U...
2024-05-16 27 人工智能AI行业报告
近年来,人工智能领域的一系列突破性进展令我们身处新一代产 业革命的浪潮中,尤其是 ChatGPT、GPT-4、文心一言、通义千问、 星火大模型、Gem...
2024-05-13 64 人工智能AI行业报告
从片间互联看,片间和系统间互联能力较弱。国产 AI 芯片以免费 CCIX 为主,生 态不完整,缺少实用案例,无 NV-Link 类似的协议。大规模部署...
2024-05-12 45 人工智能AI行业报告
我国大力推进现代化产业体系建设,“人工智能+战略”明确提出。2024 年《政府工作报告》中提 出“制定支持数字经济高质量发展政策,积极推进数字产业化、...
2024-05-11 61 人工智能AI行业报告
Stable Diffusion 由三个主要模块组成,每个模块都由独立的神经网络实现: 1)文本编码器 (Text Encoder :采用 Trans...
2024-05-09 63 人工智能AI行业报告
用户需求明确:只需要帮助企业降本增效,即长期来看提升的产能大于投入的成本(ROI>1),就会有望形成付费,指标更容易量化; 对产品体验的要求较低...
2024-05-08 72 人工智能AI行业报告
最新留言