Microsoft推出机器人视觉-语言-行动模型

2026年01月27日由 alex 发表 3615 0

MIcrosoft_robot

Microsoft推出了Rho-alpha，一种新的视觉语言动作模型，旨在让机器人更具适应性、响应迅速，并具备在现实环境中运作的能力。

这家科技巨头本月早些时候在一篇博客文章中揭示了生成式人工智能视觉-语言-动作（VLA）模型。该模型源自Microsoft的Phi开放模型系列。

Rho-alpha 将自然语言指令转换为执行作任务的机器人控制信号。

Microsoft表示，为了训练模型，他们结合了物理演示和仿真，以及基于开放的Nvidia Isaac Sim框架构建的多阶段强化学习过程。

为了更好地感知，Microsoft还增加了触觉感知功能，使机器人能够通过触觉对环境做出反应，而不仅仅是视觉输入。

在未来的版本中，Microsoft表示计划加入力感和其他技术。

博客文章中包含的视频演示展示了 Rho-alpha 与 Microsoft Research 最近推出的物理交互基准测试 BusyBox 进行交互，使用自然语言指令。

Microsoft的模型发布正值越来越多的行业开始使用机器人，从狭窄的任务特定部署转向在更具动态性、非结构化且常常以人为中心的环境中推广。

这一转变促使人们更加关注那些让机器人能够更自主地推理和行动的模型。

在此背景下，Microsoft将Rho-alpha定位为更灵活、更具适应性的机器人AI系统，使得比传统模型在各行业的部署机会更大。

“物理系统中VLA模型的出现，使系统能够与人类共同感知、推理和行动，”Microsoft研究加速器公司公司副总裁兼董事总经理Ashley Llorens在介绍该模型的博客文章中表示。

Rho-alpha目前正在双臂机器人系统和类人机器人上进行评估，Microsoft计划在未来几个月发布该型号的技术描述。

该型号最初将通过抢先体验计划提供，未来计划在 Microsoft Foundry 提供更广泛的可用性。

文章来源：https://aibusiness.com/robotics/microsoft-launches-vision-language-action-model-for-robots

标签：

Microsoft

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI 正在计算 ChatGPT 广告的收费

下一篇 X因Grok的性化深度伪造面临欧盟调查

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市