结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 27 人工智能AI行业报告
PaLM-E 构建了多个不同尺寸的模型。PaLM-E 由 LLM 和编码器构成。LLM 方面,选取 80 亿、620 亿和 5400 亿参数的 PaLM(PaLM 是仅使用解码器的 LLM,且已完成预训练)。 编码器方面,选取 40 亿参数和 22 亿参数的 ViT。两者结合,分别构建了参数为 120 亿的 PaLM-E-12B、840 亿的 PaLM-E-84B、5620 亿的 PaLM-E-562B,其中 PaLM-E-562B 是 目前现有最大的视觉语言(vision-language)模型。PaLM-E 有两种训练策略。1)各模态的编码器和 PaLM 一起训练,同时更新参数;2)考 虑到 LLM 在给定合适的提示(prompt)时能够表现出很好的推理能力,可以“冻结(freeze)” LLM,只训练与模态相关的编码器。完整的 PaLM-E 训练数据集包含数十个子训练集,涉及视觉、语言和具身数据。PaLM-E 进行跨任务的联合训练,其训练集为包含视觉、语言和具身数据。其中,完全混合(full mixture) 的数据集由来自各种任务的互联网规模的视觉和语言数据组成,通过设置采样频率,使得 其中 8.9%的数据为具身数据。值得注意的是,目前具身数据的训练数据集还远少于图像和 语言训练数据集。
PaLM-E 从两个思路出发,与基线模型进行结果比较。1)比较不同的输入表示(状态估计 向量、ViT 等编码器)在性能、泛化能力、数据有效性方面的表现。2)聚焦单一的 PaLM-E 架构(预训练的 ViT+PaLM),将原始图像作为连续输入,针对不同的联合训练策略和模型 参数,比较其在性能、泛化能力、数据有效性方面的表现。比较基线选取的是 SOTA 视觉 语言模型 PaLI(未在机器人具身数据上训练)+SayCan 算法(机器人模型,人工提供了机 器人最优动作序列指导 oracle affordances)。 实验涉及 3 种不同的机器人环境/任务。1)任务与运动规划(Task and Motion Planning , TAMP),机器人必须对物体进行抓取、堆放等操作;2)桌面环境操作(table-top pushing environment),主要是对桌面上的积木块等物体进行操作;3)移动操作(mobile manipulation domain)。机器人在厨房环境中解决各种任务,包括在抽屉里寻找物品、挑选 物品,并将其交给人类。PaLM-E 分别在各领域的专业数据集上进行训练。例如桌面环境使 用的训练集为 Language-Table dataset。
标签: 人工智能AI行业报告
相关文章
结构性矛盾如同深埋于医疗体系肌体内的病灶,长期困扰着全球医疗健康产 业的发展。然而,危机往往也孕育着变革的契机。正是这些难以克服的结构性矛盾, 催生了...
2025-03-27 27 人工智能AI行业报告
大模型商业生态推动端侧场景落地。过去 ChatGPT 引领了全球 AI 产业,国 内外公司纷纷布局 AI 赛道。国内多家厂商探索商业化路径,在激烈竞争...
2025-03-25 39 人工智能AI行业报告
根据DeepSeek团队在论文中强调,通过优化算法、框架和硬件的协同设计实现的。在预训练阶段,每万亿个token上训练 DeepSeek-V3只需要1...
2025-03-24 70 人工智能AI行业报告
大模型军备竞赛,编程能力跃进,为 AI 编码应用繁荣夯实基础底座。Claude 3.5 sonnet (new 在 HumanEval 代...
2025-03-24 46 人工智能AI行业报告
在计算架构层面,大模型的训练和应用通常需要处理大规模的数据集,这将增加对于高带宽的需求,以执行数据 并行、流水线并行及张量并行等策略。为了满足大模型对...
2025-03-21 36 人工智能AI行业报告
AI 编程:重构代码编写的范式。AI 编程已经成为 AI 发展的一个重要的细分 领域,正在逐步赋能编程工作的各个方面,包括代码自动补全、代码生成、测试...
2025-03-21 30 人工智能AI行业报告
最新留言