谷歌全新开源模型 DiffusionGemma:从噪声生成文本,告别逐词输出

2026年06月11日 由 alex 发表 2098 0

diffusiongemma-01-hero


谷歌推出了一款权重开源的实验性模型,该模型采用扩散机制生成文本,而非传统的逐词输出模式。在单张GPU、单用户运行场景下,它的运行速度较传统语言模型最高提升四倍,本次模型优化工作由Nvidia完成。


绝大多数语言模型都是自回归式生成文本,逐个输出词元,且每个新词元都依赖前文内容。DiffusionGemma 则另辟蹊径:它先构建包含 256 个随机占位词元的文本块,再经过多轮迭代优化,最终生成通顺可读的文本。这一思路借鉴了图像人工智能技术 —— 图像扩散模型正是将随机噪点逐步转化为清晰图像。


该模型总参数量达 2600 亿,但每一轮运算仅激活 38 亿参数。这得益于混合专家架构:模型内置多个专用子网络,运行时会根据输入内容,仅调用对应的子网络工作。谷歌表示,对模型进行低精度量化后,高端消费级GPU仅需 18GB 显存即可运行。它基于 Gemma 4 系列模型开发,扩散算法则沿用了谷歌此前Gemini Diffusion的相关研究成果。


diffusiongemma-02-intelligence-vs-latency


算力利用率提升,实现速度飞跃


Nvidia指出,这款模型的速度优势源于硬件资源利用方式的革新。传统自回归模型在单用户推理时,性能瓶颈往往来自显存带宽,GPU计算单元多数时间处于空闲状态,只能等待显存传输数据,业内将这种情况称为显存受限。而 DiffusionGemma 可并行处理多达 256 个词元,把性能瓶颈转移到算力运算层面,让GPU始终保持高负载运转。


实测数据显示:H100 GPU处理单条请求时,每秒可生成约 1000 个词元;DGX Spark 桌面系统每秒输出 150 个词元;DGX 工作站每秒可达 800 个词元。谷歌称,Nvidia GeForce RTX 5090 GPU运行该模型时,词元生成速度超每秒 700 个。在本地单用户场景中,专用GPU运行该模型的速度,是同级别自回归模型的四倍左右。


diffusiongemma-03-benchmark


谷歌同时提到,该模型的速度优势在专用加速硬件上表现突出。但苹果芯片这类共享内存架构设备,本身推理过程就受限于显存带宽,因此它与传统自回归模型的速度差距会明显缩小。


不过在云端多请求并发场景下,情况则截然相反:自回归模型此时已能充分利用硬件资源,部署 DiffusionGemma 反而会推高使用成本。


速度换取部分生成质量,解锁全新应用场景


DiffusionGemma 以小幅牺牲文本生成质量为代价换取运行速度。谷歌建议,对文本质量要求较高的场景仍使用标准版 Gemma 4 模型,而将 DiffusionGemma 定位为面向科研人员与开发者的工具,适用于追求本地高速运行的工作流程。


该模型的核心优势体现在非顺序类任务上。它会一次性处理完整文本块,生成过程中每个词元都能关联前后所有内容,而传统语言模型仅能调取前文信息。


这一特性让它十分适合在已有段落中插入文字、补全代码空缺,以及处理氨基酸序列、数学图谱等结构化数据。谷歌举例称,经 Unsloth 微调后的 DiffusionGemma 可以解答数独问题,而传统自回归模型很难完成这类任务,因为数独每个位置的数值都和后续位置相互关联。


diffusiongemma-04-sudoku


权重全面开源,主流工具原生适配


该模型权重已上传至 Hugging Face 平台,采用 Apache 2.0 开源协议。DiffusionGemma 可直接兼容多款主流推理框架,包括 Hugging Face Transformers、集成红帽技术的 vLLM 以及 MLX。模型微调方面,谷歌推荐自研的可定制扩散工具包 Hackable Diffusion,同时也支持 Unsloth 与Nvidia NeMo 框架,后续还将适配 llama.cpp。


Nvidia针对 RTX 5090、RTX 4090 完成了模型量化,并基于 Hopper、Blackwell 两大服务器架构做了专项优化,适配 DGX Spark、DGX Station 等本地桌面设备。目前该模型也已登陆 Gemini 企业智能体平台模型库与Nvidia NIM 服务。


谷歌同步发布了 DiffusionGemma 开发指南,业内人士Maarten Grootendorst制作了可视化教程,讲解该模型的工作原理。


技术溯源:Gemini Diffusion 奠定技术基础


Google Deepmind 此前就推出过文本扩散模型 Gemini Diffusion,并发布了早期实验演示,当时实测速度可达每秒 1479 个词元,综合性能与 Gemini 2.0 Flash-Lite 基本持平。


初创公司 Inception 也在研发同类并行扩散技术,其旗下 Mercury 2 于 2026 年初正式上线,官方称这是全球首款基于扩散技术的推理模型。

文章来源:https://the-decoder.com/googles-new-open-model-diffusiongemma-generates-text-from-noise-instead-of-word-by-word/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消