Google 刚刚发布了一个文本生成速度 4 倍的 AI 模型。怎么做到的。
你使用过的每一个 AI 语言模型都按同一种方式生成文本:一次一个 token,从左到右,等待每个词再生成下一个。GPT-4、Claude、Gemini 以及所有其他主流模型都是这样工作的。Google DeepMind 刚刚发布了一个不同的东西。
DiffusionGemma 是一个开源的实验性模型,每次并行生成 256 个 token——不是一次一个。结果是:文本生成速度大约是同类自回归模型的 4 倍。
「扩散」在这里到底是什么意思
你可能在图像生成的语境中听说过扩散模型——Stable Diffusion、Midjourney、DALL-E。它们的工作原理是从噪声开始,逐步迭代精炼成一张连贯的图像。DiffusionGemma 将同样的核心理念应用到了文本上。
扩散语言模型不是根据前面所有词来预测下一个词,而是从一个粗略的草稿开始,逐步精炼。模型同时查看所有 token——双向注意力——在过程中修正错误。
这是一个根本不同的架构。自回归模型只能向后看(它们还没生成未来的 token)。扩散模型可以双向看,这意味着它们在修正错误时有更多的上下文。
数据
DiffusionGemma 是一个 26B 参数的混合专家模型,但任何给定推理过程中只有 3.8B 参数处于活跃状态。这是一个关键的效率技巧——你获得了大模型的质量,而无需支付全部计算成本。
量化后,它适合 18GB 显存——在 RTX 4090 或 5090 这样的消费级 GPU 上就能运行。基准测试性能:
- H100: 每秒 1000+ token
- RTX 5090: 每秒 700+ token
作为对比,大多数在本地运行的生产级模型远低于这些数字。4 倍加速的说法是成立的。
它为什么场景设计
DiffusionGemma 没有被定位为通用聊天模型。Google DeepMind 指出了具体的使用场景:
- 内联编辑 ——原地重写一段文本,模型可以同时看到前面和后面的内容
- 代码填空 ——当函数签名和周围代码已经写好时,补全函数体
- 本地交互式工作流 ——任何低延迟很重要且你希望在自有硬件上运行的场景
双向注意力和自我修正能力使其特别适合这些任务。自回归模型必须在看到后面的内容之前就承诺每个 token;DiffusionGemma 可以回头修改。
它是开源的
以 Apache 2.0 许可证发布,DiffusionGemma 完全开放。你可以商业使用、修改它并在本地运行。这是 Google DeepMind 的一个有意义的承诺——Apache 2.0 是最宽松的开源许可证之一。
这使它加入了 Gemma 已有的开放模型家族,后者已成为本地 AI 开发的热门基础。
对 OpenClaw 用户的意义
当你运行 AI 智能体时,速度非常重要。一个在 10 秒内完成任务的智能体感觉响应灵敏;一个需要 2 分钟的则感觉像瓶颈。
目前,大多数智能体工作流都被推理速度限制了——每次工具调用、每个推理步骤、每次输出都需要等待模型逐 token 生成。底层模型 4 倍加速不仅仅是线性地加快速度:它可以使整类工作流变得切实可行,而之前是不现实的。
本地模型对智能体场景越来越可行,尤其是对于你想要低延迟、隐私或离线能力的任务。DiffusionGemma——适配 18GB 显存,在消费级硬件上以 700+ token/s 运行——正是那种让运行自有智能体栈更具吸引力的发展。
OpenClaw 被设计为使用你想用的模型。随着本地模型生态的改进,运行你自己持久化 AI 智能体的理由会越来越强。