
Microsoft推出了Rho-alpha,一种新的视觉语言动作模型,旨在让机器人更具适应性、响应迅速,并具备在现实环境中运作的能力。
这家科技巨头本月早些时候在一篇博客文章中揭示了生成式人工智能视觉-语言-动作(VLA)模型。该模型源自Microsoft的Phi开放模型系列。
Rho-alpha 将自然语言指令转换为执行作任务的机器人控制信号。
Microsoft表示,为了训练模型,他们结合了物理演示和仿真,以及基于开放的Nvidia Isaac Sim框架构建的多阶段强化学习过程。
为了更好地感知,Microsoft还增加了触觉感知功能,使机器人能够通过触觉对环境做出反应,而不仅仅是视觉输入。
在未来的版本中,Microsoft表示计划加入力感和其他技术。
博客文章中包含的视频演示展示了 Rho-alpha 与 Microsoft Research 最近推出的物理交互基准测试 BusyBox 进行交互,使用自然语言指令。
Microsoft的模型发布正值越来越多的行业开始使用机器人,从狭窄的任务特定部署转向在更具动态性、非结构化且常常以人为中心的环境中推广。
这一转变促使人们更加关注那些让机器人能够更自主地推理和行动的模型。
在此背景下,Microsoft将Rho-alpha定位为更灵活、更具适应性的机器人AI系统,使得比传统模型在各行业的部署机会更大。
“物理系统中VLA模型的出现,使系统能够与人类共同感知、推理和行动,”Microsoft研究加速器公司公司副总裁兼董事总经理Ashley Llorens在介绍该模型的博客文章中表示。
Rho-alpha目前正在双臂机器人系统和类人机器人上进行评估,Microsoft计划在未来几个月发布该型号的技术描述。
该型号最初将通过抢先体验计划提供,未来计划在 Microsoft Foundry 提供更广泛的可用性。
