海外模型应用复盘报告：国内AI奇点已至（80页）

行业报告下载 2023年11月14日 07:55 管理员

Gopher 是Google Deepmind在2021年12月份提出的，该模型共有6个版本，参数量从4400万到2800亿。 Gopher是在 MassiveText数据集上训练得到，该数据集是一个多源大规模英语文本数据集，来源主要包括：网页、书籍、新闻和代码，总共包含23.5亿的文档，约等于10.5TB的文本。  Gopher模型在多个TPU节点上进行训练，每个节点包含1024个 TPUv3芯片，节点间采用数据并行和张量并行，由于TPUv3具有快速的跨芯片通信，因此数据和模型并行开销很低。在训练的过程中对梯度进行裁剪，防止梯度消失或者爆炸，保持训练稳定性。 Gopher在152个任务上进行了评估，涉及数学、常识、逻辑推理、通用知识、科学理解、伦理和阅读理解，以及传统的语义建模基准等多个方面。

RT-2 建立在视觉 - 语言模型（VLM）的基础上，又创造了一种新的概念：视觉 - 语言 - 动作（VLA）模型，它可以从网络和机器人数据中进行学习，并将这些知识转化为机器人可以控制的通用指令。 7月28日，Google DeepMind宣布其通过以训练AI聊天机器人的方式训练一款机器人控制模型RT-2，相当于机器人版本的ChatGPT。 Google DeepMind通过对该模型进行视觉识别和语言识别上的训练，教会了机器人更好的识别物品和理解人类用自然语言发出的命令。 Google DeepMind团队通过直接训练开放词汇视觉问答和视觉对话设计，据Google DeepMind团队介绍，他们在互联网数据上训练了多达55B参数的模型，对6千个机器人进行评估，最后发现RT-2模型能够显著提高机器人场景和指令的泛化能力。从PaLM-E到以RT-2为代表机器人模型进化迭代，我们认为有望重塑机器人智能化产业链，改善产业格局，助力机器人在交互能力、规划控制能力、泛化能力、感知能力等多方面极大提升。