辅助驾驶行业报告：VLA和世界模型，通往高阶智能驾驶之路（33页）

行业报告下载 2025年10月17日 08:11 管理员

Vision-Language-Action（VLA）模型是一种融合视觉（Vision）、语言（Language）和动作（Action）三大模态的端到端人工智能模型。 - 它通过统一的多模态学习框架，将感知、推理与控制一体化，直接根据视觉输入（如图像、视频）和语言指令（如任务描述）生成可执行的物理世界动作（如机器人关节运动、车辆转向控制）。 - VLA概念形成于2021-2022年左右，由Google DeepMind的Robotic Transformer2 （RT-2）等项目开创。循环状态空间模型 (RSSM) 的创新之处在于它在图c中战略性地将状态分解为随机和确定性成分，有效地利用了确定性元素的预测稳定性以及随机元素的适应潜力。这种混合结构保证了强大的学习和预测能力，既适应了现实世界的不可预测性，又保持了信息的连续性。通过结合RNN的优势与状态空间模型 (SSM)的灵活性，RSSM为世界模型建立了一个全面的框架，增强了它们在保持精确性和适应性的同时预测未来状态的能力。