GPT系列报告：具身化多模态PaLM-E（17页）

行业报告下载 2023年04月16日 07:48 管理员

PaLM-E 构建了多个不同尺寸的模型。PaLM-E 由 LLM 和编码器构成。LLM 方面，选取 80 亿、620 亿和 5400 亿参数的 PaLM（PaLM 是仅使用解码器的 LLM，且已完成预训练）。编码器方面，选取 40 亿参数和 22 亿参数的 ViT。两者结合，分别构建了参数为 120 亿的 PaLM-E-12B、840 亿的 PaLM-E-84B、5620 亿的 PaLM-E-562B，其中 PaLM-E-562B 是目前现有最大的视觉语言（vision-language）模型。PaLM-E 有两种训练策略。1）各模态的编码器和 PaLM 一起训练，同时更新参数；2）考虑到 LLM 在给定合适的提示（prompt）时能够表现出很好的推理能力，可以“冻结（freeze）” LLM，只训练与模态相关的编码器。完整的 PaLM-E 训练数据集包含数十个子训练集，涉及视觉、语言和具身数据。PaLM-E 进行跨任务的联合训练，其训练集为包含视觉、语言和具身数据。其中，完全混合（full mixture）的数据集由来自各种任务的互联网规模的视觉和语言数据组成，通过设置采样频率，使得其中 8.9%的数据为具身数据。值得注意的是，目前具身数据的训练数据集还远少于图像和语言训练数据集。

PaLM-E 从两个思路出发，与基线模型进行结果比较。1）比较不同的输入表示（状态估计向量、ViT 等编码器）在性能、泛化能力、数据有效性方面的表现。2）聚焦单一的 PaLM-E 架构（预训练的 ViT+PaLM），将原始图像作为连续输入，针对不同的联合训练策略和模型参数，比较其在性能、泛化能力、数据有效性方面的表现。比较基线选取的是 SOTA 视觉语言模型 PaLI（未在机器人具身数据上训练）+SayCan 算法（机器人模型，人工提供了机器人最优动作序列指导 oracle affordances）。实验涉及 3 种不同的机器人环境/任务。1）任务与运动规划（Task and Motion Planning ， TAMP），机器人必须对物体进行抓取、堆放等操作；2）桌面环境操作（table-top pushing environment），主要是对桌面上的积木块等物体进行操作；3）移动操作（mobile manipulation domain）。机器人在厨房环境中解决各种任务，包括在抽屉里寻找物品、挑选物品，并将其交给人类。PaLM-E 分别在各领域的专业数据集上进行训练。例如桌面环境使用的训练集为 Language-Table dataset。