从谷歌看机器人大模型进展研究报告（27页）

行业报告下载 2023年12月27日 07:35 管理员

可以看到目前大部分机器人大模型仍然以单机械臂抓取为主，从谷歌最新的Open X数据来看，单手臂的机器人形式仍然占据了绝大多数。显然光机械臂无法满足大家对于人形机器人泛用性的需求。不光是谷歌，包括斯坦福李飞飞团队的VoxPoser等也都是停留在物品抓取的阶段，距离常规理解的操作（从拧螺丝钉到组装宜家家具）还有较大差距。对比手机产业发展进程，如果以IPHONE4出炉代表着智能机产业化的标志，那目前机器人行业仍然处在类似功能机的阶段—— 可以听歌、可以发短信，但是无法成为一个互联网的载体。从2022年4月谷歌推出SayCan模型以来，两年不到的时间，用于机器人的大模型已经经历过多次的模型迭代，但直至现在仍然尚未有最终的模型定型。大模型仍然层出不穷，微软谷歌斯坦福等均有论文持续出炉，彼此之间甚至连任务定义还都不一样。例如在将做任务规划的大脑与下层运动控制的方案之间的通信渠道的方案中，谷歌RT-2采取的是action tokenization, VoxPoser采取的是value map, SayCan采取的是value function, 这些技术路线还没开始收敛。我们认为目前机器人大模型的技术路线还远未开始收敛。随着后续语言类大模型的持续发展，机器人相应的底层架构同样有变化的可能。其次大模型目前展现出来的精细化控制能力较弱，很难做偏底层的运动控制。这主要是因为目前大模型直接输出离散的 tokenization的位置和状态，未考虑连续运动的轨迹平顺性、时间最优、功耗等额外因素。另一方面，对于精细化程度要求较高的任务，可以通过Model-based方法处理，并且可以看到在工业机器人领域，很多控制精度要求较高的行业已经有满足生产要求的工业机器人，因此大模型如果希望能够在工业中得到应用，精细化操作道路仍然较远。