阿里重磅开源Qwen2-VL：能理解超20分钟视频

2024年08月30日由 daydream 发表 524 0

电商巨头阿里巴巴云旗下的云服务与存储部门，近日正式推出了其最新的视觉语言模型Qwen2-VL。该模型旨在提升视觉理解、视频解析以及多语言文本图像处理能力。

微信截图_20240830111053

在第三方基准测试中，Qwen2-VL展现出了与其他顶尖模型如Meta的Llama 3.1、OpenAI的GPT-4（注意：原文中GPT-4o可能是笔误）、Anthropic的Claude 3 Haiku以及Google的Gemini-1.5 Flash相媲美的出色性能。用户可以通过Hugging Face平台体验该模型的推理功能。

模型亮点：

强大的视觉与视频分析能力：Qwen2-VL不仅能够识别和分析多语言手写内容，还能在静态图像中识别、描述并区分多个物体，甚至能够近实时地分析视频内容，提供概要或反馈，未来或可用于技术支持等实时操作场景。

视频内容理解：该模型能够总结视频内容，回答相关问题，并在实时对话中保持连贯，提供类似个人助理的功能，直接从视频内容中提取见解和信息。

多版本选择：Qwen2-VL提供三种不同参数规模的版本，包括720亿参数的Qwen2-VL-72B、70亿参数的Qwen2-VL-7B和20亿参数的Qwen2-VL-2B。其中，后两个较小规模的版本已在Apache 2.0许可下开源，允许企业用于商业目的。

功能调用与视觉感知：Qwen2-VL支持与其他第三方软件、应用和工具的集成，能够提取并理解来自这些外部源的信息，如航班状态、天气预报或包裹追踪，模拟人类感知世界的方式进行交互。

架构优化：模型采用了多项架构改进，如Naive Dynamic Resolution支持处理不同分辨率的图像，以及Multimodal Rotary Position Embedding（M-ROPE）系统，使模型能够同时捕获和整合文本、图像和视频中的位置信息。

目前，Qwen2-VL模型已可供开发者和研究人员使用，团队鼓励各界探索这些前沿工具的潜力。

文章来源：https://venturebeat.com/ai/alibaba-releases-new-ai-model-qwen2-vl-that-can-analyze-videos-more-than-20-minutes-long/

标签：

阿里巴巴语言模型 Qwen2-VL

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇谷歌新推三大实验性AI模型，加速AI能力进化

下一篇 NVIDIA发布新型AI模型Eagle，显著提升视觉理解与交互能力

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术