阿里重磅开源Qwen2-VL:能理解超20分钟视频
2024年08月30日 由 daydream 发表
129
0
电商巨头阿里巴巴云旗下的云服务与存储部门,近日正式推出了其最新的视觉语言模型Qwen2-VL。该模型旨在提升视觉理解、视频解析以及多语言文本图像处理能力。
在第三方基准测试中,Qwen2-VL展现出了与其他顶尖模型如Meta的Llama 3.1、OpenAI的GPT-4(注意:原文中GPT-4o可能是笔误)、Anthropic的Claude 3 Haiku以及Google的Gemini-1.5 Flash相媲美的出色性能。用户可以通过Hugging Face平台体验该模型的推理功能。
模型亮点:
- 强大的视觉与视频分析能力:Qwen2-VL不仅能够识别和分析多语言手写内容,还能在静态图像中识别、描述并区分多个物体,甚至能够近实时地分析视频内容,提供概要或反馈,未来或可用于技术支持等实时操作场景。
- 视频内容理解:该模型能够总结视频内容,回答相关问题,并在实时对话中保持连贯,提供类似个人助理的功能,直接从视频内容中提取见解和信息。
- 多版本选择:Qwen2-VL提供三种不同参数规模的版本,包括720亿参数的Qwen2-VL-72B、70亿参数的Qwen2-VL-7B和20亿参数的Qwen2-VL-2B。其中,后两个较小规模的版本已在Apache 2.0许可下开源,允许企业用于商业目的。
- 功能调用与视觉感知:Qwen2-VL支持与其他第三方软件、应用和工具的集成,能够提取并理解来自这些外部源的信息,如航班状态、天气预报或包裹追踪,模拟人类感知世界的方式进行交互。
- 架构优化:模型采用了多项架构改进,如Naive Dynamic Resolution支持处理不同分辨率的图像,以及Multimodal Rotary Position Embedding(M-ROPE)系统,使模型能够同时捕获和整合文本、图像和视频中的位置信息。
目前,Qwen2-VL模型已可供开发者和研究人员使用,团队鼓励各界探索这些前沿工具的潜力。
文章来源:https://venturebeat.com/ai/alibaba-releases-new-ai-model-qwen2-vl-that-can-analyze-videos-more-than-20-minutes-long/