
谷歌DeepMind,Alphabet Inc.的人工智能研究部门,周二发布了一款全新的基础机器人AI模型,旨在显著提升理解和精确空间推理能力。
这款新模型名为Gemini Robotics-ER 1.6,由Gemini Robotics开发,增强了空间推理和多视图理解,为各种物理代理和机器人提供了更高的自主性。
DeepMind表示,这个模型为机器人提供了高级推理能力,能够进行任务规划和工具调用。这些功能包括用于谷歌搜索的信息查找的本地工具、视觉-语言-动作模型以及其他第三方用户定义功能以扩展能力。
改进的例子包括精确的物体检测、分类和识别——这是机器人在挑选和拾取物品时必须具备的能力,尤其是在分拣包裹或清理杂乱房间时。

这在关系逻辑中也很重要,比如进行比较——例如,识别一组中最小的物体,或在将物体X移动到位置Y时定义从到关系。这与轨迹映射的增强和定义抓取物体的最佳方式相结合。
公司还表示,该模型在约束条件下表现良好,并能通过复杂的提示进行推理,如“指向每个足够小以放入蓝色杯子中的物体”。
除了让机器人移动,DeepMind的研究人员还提升了模型理解和读取仪表和仪器的能力——这需要复杂的视觉推理。这对于在工厂、仓库甚至家庭环境中操作是基本的。在许多情况下,仪表包括指针、刻度线、精细刻画的数字和更多需要解决的指示器(有时还有说明)以完全理解读数的性质。
“像仪器读取和更可靠的任务推理这样的能力将使Spot能够完全自主地看到、理解和应对现实世界的挑战,”Marco da Silva说,波士顿动力公司Spot的副总裁兼总经理,该公司开发的狗形机器人。
DeepMind表示,Robotics-ER 1.6通过代理视觉实现了这种精确度,它将视觉推理与代码执行结合在一起。模型拍摄图像的快照,解析细节,然后使用精心策划的代码估算比例和间隔以获得准确的读数,最后使用其推理引擎解释读数。
从今天开始,开发者可以通过Gemini API和Google AI Studio访问ER 1.6。
