伯克利团队发布最新论文，用训练GPT的方法训练人形机器人

图片来源@视觉中国

　　文甲子光年科技产业智库，作者｜刘杨楠，编辑｜赵健

　　一台人形机器人在人行道、混凝土、沥青、广场和沙路上“散步”，这不是科幻电影的场景，而是已经发生在旧金山街头的真实事件。

　　这一人形机器人项目也引起了 Sora 团队的注意。

　　“不可思议的成果！”Sora 负责人之一 Bill Peebles 在 X 转发了这条内容，难掩惊讶。另一位核心作者 Tim Brooks 也评论道：“Ilija Radosavovic 的惊人成果把 AI 带入了真实世界。”

　　Ilija Radosavovic（伊利亚·拉多萨沃维奇）是该人形机器人项目的负责人之一，他是加州大学伯克利分校博士生，曾在 Meta 的 AI 实验室 FAIR 做研究工程师。

　　这篇论文名为《Humanoid Locomotion as Next Token Prediction》。Ilija Radosavovic 表示，论文的核心思想，就是把 OpenAI 训练 ChatGPT 时所用到的“预测下一个 token”的思路，用在人形机器人的运动控制中。

　　这被称为“自回归生成式”路线，最大的特色是可以根据“Scaling Law”——扩大模型的参数、数据、算力来提升模型的效果，也被称为“暴力美学”。不过，对于“暴力美学”的前景，目前在业内存在一定的争议。

　　目前来看，Scaling Law 已经先后突破了文本生成和视频生成，接下来又会突破人形机器人的运动控制吗？

　　“暴力美学”解锁人形机器人？

　　这篇论文中，作者提出的核心问题是：

　　过去十年，深度学习浪潮下，大型神经网络已经在互联网多样化的数据集上有了大量训练成果，我们能否以类似的方式来学习强化大的感官和运动表示模型？

　　回溯机器人的发展历程，传统机器人的运动高度依赖于人工输入准确的预测接触点和执行器方向等信息。“拿杯子”这个动作对人类而言看似简单，但对机器人而言却是一个“大工程”。人类需要拆解动作，再告诉机器人每一个动作的具体细节，像这个动作的起点在哪里、手臂要如何移动等。

　　这种方法带来的问题是，机器人只能在人类规定的路径中较好地运动和控制肢体动作，但跳出模拟世界后，机器人在真实世界就手足无措了，这个问题可简单归类到学术领域所讨论的“泛化性”较差，不够通用等问题。

　　不只机器人，在人工智能符号主义学派的研究中，“泛化性”也是一个老大难的问题。而 OpenAI 发布的 ChatGPT 之所以惊艳，有一个核心原因就是其用暴力美学——叠加大量数据、算力、参数量，就让模型对新事物表现出了泛化性极佳的“智能涌现”。

　　如今，Ilija Radosavovic 团队试图借鉴 OpenAI 在语言领域的做法，将现实世界中的仿人机器人控制视为一个“下一个 token 预测”问题，类似于语言中预测下一个单词，来实现人形机器人的运动控制。

　　该模型是一个通过自回归预测训练的 causal transformer（因果转换器）。

　　由于训练数据的多模态特性，该研究以模态对齐的方式进行预测，对于每个输 token，模型能够预测相同模态的下一个 token。这个方法让模型更加通用，能够利用缺失模态的数据，比如没有动作的视频轨迹。

　　在视频中，一个仿人形的双足机器人已经实现“零样本学习”，正在旧金山“闲逛”。

　　该模型即使只在 27 小时的行走数据上训练，也能转移到现实世界，并且能够泛化到训练期间未见过的命令，比如向后行走。这些发现为通过生成模型学习具有挑战性的现实世界控制任务提供了一个有希望的路径。

仿人运动作为下一个标记预测

　　该研究将现实世界中的仿人控制视为一个大型传感器运动轨迹数据建模问题。

　　与语言类似，研究人员训练了一个通用的 Transformer 模型来自回归地预测移位的输入序列。与语言不同，机器人数据是高维的，包含多个感官模态和动作。

　　研究人员将输入轨迹 token 化，并训练一个 causal transformer（因果转换器）模型来预测移位的标记（shifted token）。

　　重要的是，模型能够预测完整的输入序列，包括感官和动作标记。该团队是在建模联合数据分布，而不是条件动作分布。

　　收集轨迹数据集，通过自回归预测训练 Transformer 模型，并将其部署在旧金山零样本中

一个通用的缺失数据处理框架

　　该研究假设每个轨迹都是观察和动作的序列，论文展示了该模型如何泛化到具有缺失模态的序列，比如从没有动作的人类视频中提取的轨迹。

　　假设已经获取一个没有动作的观察轨迹，该团队的关键洞察是，可以将没有动作的轨迹视为带有动作遮蔽的常规轨迹。这个轨迹具有与常规动作轨迹相同的格式，因此可以统一处理。该方法忽略了对应于输入遮蔽部分的预测的损失。

　　该方法能够统一地利用有或没有动作的轨迹

构建轨迹数据集

　　该团队构建了一个轨迹数据集用于训练模型，有四大数据来源：先前的神经网络策略，基于模型的控制器，人类运动捕捉，以及 YouTube 上的人类视频。

　　不同数据源的插图如下：

　　该团队构建了一个来自四个不同来源的轨迹数据集

　　不同来源的数据会提供不同维度的信息：

　　按照上述策略训练的机器人已经可以行走在不同的表面上，包括人行道、混凝土、沥青、广场和沙土路。

有没有实现 Scaling Law？

　　论文中也提到了“Scaling”（扩展或缩放）相关的内容，提到模型性能会随着训练数据集的大小、上下文长度以及模型大小的增加而变化。

　　作者们发现，使用更多轨迹进行训练可以减少位置跟踪误差，这是一个积极的信号，表明在更大的数据集上训练可以提高性能。

　　他们还研究了在 Transformer 的上下文窗口中使用不同数量的 tokens 对模型性能的影响。结果表明，更大的上下文窗口可以产生更好的策略，这表明生成策略在规模上进行一种上下文适应，随着规模的增加而改善。

　　此外，在参数规模方面，研究结果显示，跟踪误差随着模型参数规模增大而逐渐减少。

　　这些扩展研究的结果均表明，人形机器人模型可以从更大规模的数据集、更长的上下文窗口以及更大的模型中受益。

　　人形机器人风暴‍

　　人形机器人正在硅谷刮起风暴，包括 OpenAI、英伟达在内的科技巨头都在积极布局。

　　2024 年 2 月 24 日，英伟达宣布成立通用智能体研究实验室（GEAR）。

　　GEAR 由英伟达高级科学家 Jim Fan 博士和 Yuke Zhu 教授领导，旨在虚拟和现实世界中构建具身智能体基础模型。GEAR 的研究议程分为四个方面：

　　（1）多模态基础模型

　　（2）通用机器人

　　（3）虚拟世界中的基础智能体

　　（4）模拟和仿真数据的研究。

　　英伟达 CEO 黄仁勋近日在采访中表示，机器人基础模型可能即将出现，或许是明年，“从那时起，五年后，将看到一些非常令人惊奇的事情”。

　　Jim Fan 也表示：“我们相信，在未来，每一台移动的机器都将是自主的，机器人和模拟智能体将像 iPhone 一样无处不在。我们正在构建基础智能体：一个具有通用能力的 AI，可以在许多虚拟和现实的世界中学习如何熟练地行动。”

　　同时，英伟达也开始通过投资延展其在人形机器人领域的触角。

　　2 月 29 日，开发通用人形机器人的 AI 机器人公司 Figure AI 宣布，已在B轮融资中筹集了 6.75 亿美元，估值为 26 亿美元，投资方包括微软、OpenAI Startup Fund、NVIDIA、Jeff Bezos（通过 Bezos Expeditions）、Parkway Venture Capital、Intel Capital、Align Ventures 和 ARK Invest。

　　Figure AI 成立于 2022 年，去年 5 月完成 Parkway Venture Capital 领投的 7000 万美元融资；两个月后，又获英特尔 900 万美元投资。

　　从融资情况来看，这家成立仅一年多的机器人公司已经成为硅谷创投圈一颗抢手的新星。此次，英伟达和 OpenAI 同时加码，再一次印证了 Figure AI 的火爆。

　　Figure AI 同样是一家野心勃勃的公司。“Figure AI 的愿景是尽快将人形机器人引入商业运营，”该初创公司创始人兼首席执行官布雷特·阿德科克 (Brett Adcock) 在最新一轮融资的声明中表示。

　　除投资外，Figure AI 和 OpenAI 还达成了一项合作协议。此次合作旨在通过增强人形机器人处理和推理语言的能力，帮助加快 Figure AI 的商业化进程。

　　布雷特·阿德科克表示，Figure AI 开发的人工智能模型将基于 OpenAI 最新的 GPT 模型，并根据 Figure AI 收集的机器人动作数据进行专门训练，以便其人形机器人能够与人交谈、看到事物并执行物理任务。

　　合作消息公布后，OpenAI CEO Greg Brokman 也在 X 上转发表示，OpenAI 正在将多模态模型拓展到机器人上。

　　OpenAI 产品和合作伙伴关系副总裁 Peter Welinder 表示：“我们一直计划回归机器人技术，我们通过 Figure AI 看到了一条探索人形机器人在高性能多模式模型支持下可以实现的目标的道路。”

　　早在 2022 年，OpenAI 便开始在人形机器人领域有所动作。OpenAI 曾投资一家挪威类人机器人公司 1X Technologies，双方于 2022 年达成合作，使用 AI 模型为机器人添加智能。去年 3 月，1X Technologies 获得了由 OpenAI 创业基金领投的 2350 万美元融资。

　　今年年初，1X Technologies 完成超 1 亿美元的B轮融资，EQT Ventures、三星 NEXT、Nistad 集团、Sandwater、Skagerak Capital 等参投。

　　在国内，也陆续有团队试图将 LLM 与机器人控制相融合。

　　此前，「甲子光年」独家获悉，北京大学前沿计算机研究中心助理教授、博士生导师董豪团队发布的最新具身大模型研究成果——ManipLLM 的论文已被计算机视觉领域顶会 CVPR 2024 接收。