谷歌DiffusionGemma AI 每秒可免费处理1000个令牌

简而言之 Google 发布了 DiffusionGemma,这是一个免费的开源权重模型,它通过文本扩散同时生成完整的 256 个标记的块——在 NVIDIA H100 上每秒可生成超过 1,000 个标记,比标准自回归模型快四倍。 DiffusionGemma 进行本地推理所需的自定义绘图模块目前在任何公共运行时环境中都不存在——mlx-lm 中没有,LM Studio 中也没有——这使得它在当今大多数消费者设置中实际上无法运行。 在 NVIDIA NIM 上,该模型预配置了 8,192 个上下文标记 - 低于 Hermes Agent 等代理框架所需的 64,000 个标记的最低要求 - 这意味着如果没有手动重新配置,自主工作流将无法运行。
谷歌今天发布了 DiffusionGemma,这是一个开源的 AI 模型,它生成文本的方式与图像生成器生成图像的方式类似:从噪声开始,不断优化直到生成有意义的文本。在 NVIDIA H100 显卡上,它的处理速度达到了每秒 1000 个 token。(Token 是 AI 模型处理的基本信息单元。)这意味着它的速度是普通 Gemma 的四倍。此外,它还是免费的,采用 Apache 2.0 许可,并且在 Hugging Face 上提供了权重。

一如既往,关键在于细节。根据谷歌的公告,该模型在NVIDIA GeForce RTX 5090显卡上每秒可处理700多个令牌。但其输出质量也逊于标准的Gemma 4模型。
谷歌自己也这么说了。这是一款速度型车型,而不是质量升级版。
它实际的作用
你用过的所有LLM(逻辑语言模型)都像一台打字机,一次只能输入一个词,而且每个词都依赖于前一个词。这就是自回归架构的工作原理。
DiffusionGemma 并非如此。它不是按顺序生成标记,而是并行地从经过处理的乱码文本块开始。根据谷歌的开发者指南,它“从随机占位符标记开始”,并迭代地锁定可靠的标记,直到整个文本块清晰呈现。每次前向传播会生成 256 个标记。GPU 会一直处于忙碌状态。

其副作用是双向注意力——每个词元在生成过程中都能看到其他所有词元,这在自回归模型中是不可能的(自回归模型无法预知未来,即哪些内容将被编码)。这使得它在答案结尾约束开头的任务中表现异常出色:例如代码填充、结构化输出、约束密集型问题等等。谷歌曾对一个版本进行微调,使其能够解决数独问题作为演示。基础模型的正确率几乎为零。
经过微调的版本达到了 80%。
文本扩散一直是多年的研究课题。MDLM、SEDD、LLaDA、Dream——这些学术模型证明了该方法在小规模应用中的有效性,但大多仅停留在概念验证阶段。Inception Labs 于 2026 年 2 月发布了 Mercury 2,这是首款商用扩散推理模型,声称其速度比速度优化型竞争对手快五倍。
但这些都不是开源的,而且在 vLLM、Hugging Face Transformers 和 Unsloth 等库中也没有提供首日支持。DiffusionGemma 是顶级实验室推出的首个大型开源版本。
还有一个值得注意的历史讽刺之处。图像生成器最初采用的是扩散模型(因此得名“稳定扩散”),现在为了提高图像质量,正转向自回归架构。语言模型最初采用的是自回归模型,现在为了提高速度,正在尝试使用扩散模型。
为什么现在跑步这么麻烦……
高效运行 DiffusionGemma 需要一个草案器——一个轻量级模块,它可以并行生成令牌块,然后主模型只需一次前向传播即可验证这些令牌块。这被称为推测性解码。DFlash 是一个于 2026 年初发布的框架,它使用一个小型扩散模型作为草案器,在某些任务上实现了 6 倍以上的加速。正是它让这类模型得以实际应用。
问题在于:DiffusionGemma 需要一个特定的绘图器才能通过 MLX(苹果公司为 Apple Silicon 开发的机器学习框架)在本地运行。然而,该模块在任何公开版本的 mlx-lm、任何已提交的 pull request 或 LM Studio 的捆绑运行时中都不存在。
我们尝试通过 NVIDIA NIM 使用 Hermes 运行 DiffusionGemma 模型。模型加载成功,但随后出现以下错误:“agent init failed: Model google/diffusiongemma-26b-a4b-it has a context window of 8,192 tokens, which is below the minimum 64,000 required by Hermes Agent.”
准确来说:DiffusionGemma 的实际上下文窗口大小为 256K 个 token。8192 这个数字是 Nvidia 默认设置导致的,并非模型架构的限制。
实际上,要正确配置 Hermes Agent 以供代理使用,需要手动操作,而大多数普通用户尚未掌握这些操作,否则 Hermes Agent 根本无法初始化。如果代理无法启动,并行速度再快也毫无意义。
希望在接下来的几天里,社区能够提供更好的资源来运行这些模型。
这究竟是为谁准备的?
拥有 NVIDIA RTX 4090 或 5090 显卡的开发者正在构建实时工具,例如内联编辑器、自动补全、代码填充和结构化代码生成。这就是目标用户。正如 Decrypt 在五月份报道的那样,谷歌一直在稳步推进本地推理速度的提升,而无需新的硬件。
对于研究人员来说,双向生成开辟了自回归模型根本无法触及的领域——蛋白质序列、数学图,以及任何位置 N 取决于位置 N+50 的情况。这可不是小事。
Google 于 4 月份根据 Apache 2.0 协议发布了 Gemma 4,DiffusionGemma 也延续了这一策略。截至目前,已经有一个 llama.cpp 的 PR 草案提交。待工具链更新完毕后,它将惠及更广泛的用户群体。
在配备高性能独立显卡的机器上,每秒处理 1000 个令牌是完全可以实现的。