智谱发布 GLM-5V-Turbo 多模态 Coding 基座模型

2026年04月02日由 alex 发表 5313 0

今日，智谱发布面向视觉编程打造的多模态 Coding 基座模型 GLM-5V-Turbo。其具备以下特点：原生多模态 Coding 基座，兼顾视觉与编程能力，并深度适配 ClaudeCode 与龙虾场景。

据介绍，GLM-5V-Turbo 从预训练阶段深度融合视觉与文本能力，让编程不再局限于纯文本输入。模型能看懂设计稿、截图、网页界面，并据此生成完整可运行的代码，真正做到看得懂画面、写得出代码。

核心要点如下：

原生多模态 Coding 基座：原生理解图片、视频、设计稿、文档版面等多模态输入，并支持画框、截图、读网页等多模态工具调用，上下文窗口扩展至 200k，将 Agent 的感知-行动链路从纯文本延伸到视觉交互。

兼顾视觉与编程能力：在多模态 Coding、Tool Use、GUI Agent 等核心基准上取得领先表现。通过多任务协同 RL 等技术手段，确保纯文本场景下的编程、推理、工具调用等能力不退化。

深度适配 Claude Code 与龙虾场景：与 Claude Code、OpenClaw/AutoClaw 等 Agent 深度协同，支持“看懂环境 → 规划动作 → 执行任务”的完整闭环，并提供全套官方 Skills，开箱即用。

在多模态 Coding、Agentic 任务以及纯文本 Coding 维度的评测基准上，GLM-5V-Turbo 均以更小尺寸取得了领先表现。

屏幕截图2026-04-02094930

GLM-5V-Turbo 在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现；在衡量真实 GUI 环境操控能力的 AndroidWorld、WebVoyager 等基准上同样表现突出。在纯文本 Coding 能力方面，GLM-5V-Turbo 在 CC-Bench-V2 的 Backend、Frontend 和 Repo Exploration 三项核心基准测试中均保持稳定表现，表明视觉能力引入后，纯文本编程与推理能力保持了同等水准。

屏幕截图2026-04-02094952

在 AutoClaw 等龙虾 Agent 中接入 GLM-5V-Turbo 后，龙虾具备了真正的视觉能力，能看懂屏幕上的信息。模型在衡量龙虾 Agent 任务执行质量的 PinchBench、ClawEval 和 ZClawBench 上取得优异成绩，验证了其在复杂任务执行场景中的综合能力。

文章来源：https://www.ithome.com/0/935/149.htm

标签：

智谱

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 OpenAI完成创纪录的1220亿美元融资，估值达到8520亿美元

下一篇 Alien筹集710万美元以构建人类与AI代理的身份基础设施

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术