今日,智谱发布面向视觉编程打造的多模态 Coding 基座模型 GLM-5V-Turbo。其具备以下特点:原生多模态 Coding 基座,兼顾视觉与编程能力,并深度适配 ClaudeCode 与龙虾场景。
据介绍,GLM-5V-Turbo 从预训练阶段深度融合视觉与文本能力,让编程不再局限于纯文本输入。模型能看懂设计稿、截图、网页界面,并据此生成完整可运行的代码,真正做到看得懂画面、写得出代码。
核心要点如下:
在多模态 Coding、Agentic 任务以及纯文本 Coding 维度的评测基准上,GLM-5V-Turbo 均以更小尺寸取得了领先表现。

GLM-5V-Turbo 在设计稿还原、视觉代码生成、多模态检索与问答、视觉探查等基准上均取得领先表现;在衡量真实 GUI 环境操控能力的 AndroidWorld、WebVoyager 等基准上同样表现突出。在纯文本 Coding 能力方面,GLM-5V-Turbo 在 CC-Bench-V2 的 Backend、Frontend 和 Repo Exploration 三项核心基准测试中均保持稳定表现,表明视觉能力引入后,纯文本编程与推理能力保持了同等水准。

在 AutoClaw 等龙虾 Agent 中接入 GLM-5V-Turbo 后,龙虾具备了真正的视觉能力,能看懂屏幕上的信息。模型在衡量龙虾 Agent 任务执行质量的 PinchBench、ClawEval 和 ZClawBench 上取得优异成绩,验证了其在复杂任务执行场景中的综合能力。
