“最强”机器学习辅助！利用自然语言让机器人更好地理解开放性世界-摩杜云开发者社区

原创 | 文 BFT机器人

“最强”机器学习辅助！利用自然语言让机器人更好地理解开放性世界_3D

想象一下，你正在国外拜访朋友，打开他的冰箱看看有没有能够制作一顿美味早餐的食材。最初，冰箱里的许多物品对你来说都很陌生，每个物品的包装都是你不熟悉的。你开始试图理解每个物品的用途，并根据自己的需要拿起它们。

受到人类处理陌生物体能力的启发，麻省理工学院计算机科学与人工智能实验室（CSAIL）的一个团队设计了“用于机器人操作的特征场（F3RM）”，这是将2D图像与基础模型特征结合成3D场景的系统。如此，在2D图像中构建的图像特征和语义数据，就能被三维的机器人理解并使用。不仅操作简单，训练过程中需要的样本量也很小，低训练样本实现轻松取物。

F3RM为机器人提供了解释自然语言的开放性文本提示的能力，帮助机器操作物体。因此，即使机器人接收到来自人类不太具体的请求，仍然能够完成所需的任务。例如，如果用户要求机器人拿起一个高杯子，机器人可以找到并拿取最符合这个描述的物品。来自麻省理工学院计算机科学与人工智能实验室的博士后研究员Ge Yang表示：“使机器人在现实世界中能够泛化是非常困难的，我们真的想弄清楚如何做到这一点，因此在这个项目中，我们试图推动一种激进的泛化水平，从仅有三四个物体到我们在麻省理工学院发现的任何东西。我们想学会如何使机器人像我们自己一样灵活，因为我们可以轻松抓取和放置即使从未见过的物体。”

“最强”机器学习辅助！利用自然语言让机器人更好地理解开放性世界_人工智能_02

01

通过视觉了解事物的位置

这种方法可以帮助机器人在充满混乱和不可预测性的大型订单处理中挑选物品。在这些仓库中，通常需要给机器人提供库存描述，以便它们能够识别。机器人必须将提供的文本与物体匹配，而不管包装方式如何，以确保客户的订单被正确地发货。

大型在线零售商的订单处理中心可能包含数百万件物品，其中许多物品机器人以前从未遇到过。为了在如此大规模的操作中运行，机器人需要理解不同物品的几何形状和语义，其中一些可能位于狭小空间中。借助F3RM的先进空间感知和语义感知能力，机器人可以更有效地定位物体，将其放入箱子中，然后送往包装。这将有助于工厂更高效地完成客户订单。

麻省理工学院的研究团队指出，F3RM理解不同场景的能力可能在城市和家庭环境中也很有用。例如，这种方法可以帮助个性化机器人识别和拾取特定物品。该系统帮助机器人把握它们的周围环境，无论是在物理上还是在感知上。麻省理工学院电气工程和计算机科学副教授、CSAIL首席研究员Phillip Isola表示：“David Marr曾经将视觉感知定义为‘通过看的方式知道物体的位置’的问题。最近的基础模型在知道它们正在看什么方面做得非常好，它们可以识别成千上万种物体类别，并提供图像的详细文本描述。

与此同时，辐射场在表示场景中的物体位置方面也表现出色。这两种方法的结合可以创建一个关于3D中物体位置的表示。我们的工作表明，这种组合对于需要在3D中操纵物体的机器人任务特别有用。”

“最强”机器学习辅助！利用自然语言让机器人更好地理解开放性世界_3D_03

02

创造“数字孪生”

F3RM通过使用自拍杆拍照来开始理解周围环境。安装在自拍杆上的摄像头以不同的姿势拍摄了50张照片，从而使其构建了神经辐射场（NeRF），这是一种深度学习方法，用于从2D图像构建3D场景。这些RGB照片的集合创建了其周围环境的“数字孪生”，以360度的形式呈现附近的场景。

除了高度详细的神经辐射场，F3RM还构建了一个特征场，以增强几何形状与语义信息。该系统使用CLIP——一个在数亿张图像上训练的视觉基础模型，以有效地学习视觉概念。通过重建自拍杆拍摄的图像的2D CLIP特征，F3RM有效地将这些2D特征提升到一个3D表示中。

“最强”机器学习辅助！利用自然语言让机器人更好地理解开放性世界_计算机科学_04

03

保持事物的开放性

在接收了一些演示之后，机器人将其关于几何形状和语义的知识应用于抓取它以前从未遇到过的物体。一旦用户提交了文本查询，机器人会搜索场景中可能满足用户抓取需求的所有物体。每个潜在的选项都根据其与提示的相关性、与机器人所训练的演示的相似性以及是否会引起任何碰撞来评分，然后选择并执行得分最高的抓取方式。

为了展示该系统解释来自人类的开放性请求的能力，研究人员要求机器人拾取Baymax（迪士尼电影《超能陆战队》中的角色）。尽管F3RM从未直接训练过如何拾取这个卡通超级英雄的玩具，但机器人利用其来自基础模型的空间感知和视觉语言特征来决定要拾取哪个物体以及如何拾取它。

F3RM还使用户能够在不同语言细节水平上指定他们希望机器人处理的物体。例如，如果有一个金属杯子和一个玻璃杯，用户可以要求机器人拾取“玻璃杯”。如果机器人看到两个玻璃杯，其中一个装有咖啡，另一个装有果汁，用户可以要求机器人拾取“带咖啡的玻璃杯”。特征场中嵌入的基础模型特征使这种开放性理解成为可能。

“最强”机器学习辅助！利用自然语言让机器人更好地理解开放性世界_3D_05

麻省理工学院博士研究生、CSAIL联合作者和共同主要作者William Shen表示：“如果我向一个人展示如何通过杯口拾取杯子，他们可以轻松将这种知识应用于拾取几何形状类似的物体，如碗、量杯，甚至胶带卷。对于机器人来说，实现这种适应性水平一直非常具有挑战性。F3RM将来自互联网规模数据训练的基础模型的几何理解与语义相结合，使从仅有少量演示中实现这种激进的泛化成为可能。”

该项目的研究团队成员全部来自MIT的CSAIL实验室（计算机科学与人工智能实验室），共同一作是华裔博士生William Shen和华人博后Ge Yang，由Phillip Isola和Leslie Kaelbling监督指导。该团队得到了亚马逊公司、国家科学基金会、空军科学研究办公室、海军研究办公室多学科大学计划、陆军研究办公室、麻省理工学院IBM沃森实验室以及麻省理工学院智能追求计划的部分支持，并预计将在未来的机器人学习会议上进行展示。

若您对该文章内容有任何疑问，请与我们联系，我们将及时回应。