x.AI发布多模态模型Grok-1.5V，迈向通用人工智能

2024年04月15日由 daydream 发表 660 0

埃隆·马斯克旗下的x.AI研究实验室近期发布了旗下首个多模态模型Grok-1.5 Vision（简称Grok-1.5V）的预览版。这家仅成立9个月的新兴公司取得的这一成果，无疑令人瞩目。这款大型语言模型的升级版在理解和与物理世界互动方面展现出了更为强大的能力。

微信截图_20240415100734

Grok-1.5V具备处理广泛视觉信息的能力，包括文档、图表、曲线图和照片等。它在多学科推理以及理解物理世界的空间关系方面表现突出，甚至在x.AI新推出的RealWorldQA基准测试中，其表现也超越了同类模型。

微信截图_20240415100754

在一篇博客文章中，这家初创公司展示了Grok-1.5V的多种应用场景。无论是根据绘画编写工作代码，还是根据营养标签照片计算卡路里，甚至从儿童绘画中创作睡前故事，它都能轻松应对。此外，该模型还能解释网络迷因，将表格转换为CSV格式，甚至为家庭维护问题（如露台上的朽木）提供建议。这些功能充分展示了Grok-1.5V惊人的多功能性和实用性。

微信截图_20240415100807

x.AI在博客文章中表示：“提升我们的多模态理解和生成能力，是构建能够理解宇宙的有益通用人工智能（AGI）的重要步骤。”该实验室对向社区发布RealWorldQA表示兴奋，并计划随着其多模态模型的改进而进一步扩展该基准测试。

RealWorldQA的推出凸显了x.AI在推进AI对物理世界理解方面的决心，这是开发实用的现实世界AI助手的关键一步。该基准测试包含760多张带有问答对的图像，尽管其中许多示例对人类来说可能相对简单，但却给前沿模型带来了不小的挑战，这也进一步凸显了Grok-1.5V所取得成就的重要性。

本周早些时候，Meta也发布了其OpenEQA基准测试，旨在评估AI模型对物理空间的理解能力。该基准测试包含超过1600个关于现实环境的问题，旨在测试模型识别物体、进行空间推理以及应用常识知识的能力。鉴于Grok-1.5V在理解物理世界方面的出色表现，人们对其在OpenEQA基准测试上的表现充满了期待。

x.AI强调，推进多模态理解和生成能力对于构建有益的通用人工智能（AGI）至关重要。他们计划在未来几个月内在图像、音频和视频等各种模态方面取得重大进展。该公司还表示，Grok-1.5V将很快向早期测试人员和现有Grok用户开放。

文章来源：https://www.maginative.com/article/x-ai-unveils-its-first-multimodal-model-grok-1-5-vision/

标签：

x.AI Grok-1.5V 人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Mistral AI发布新模型Mixtral 8x22B挑战行业巨头

下一篇 Reka发布多模态语言模型Core，性能领先行业

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术