← 返回博客

Google 刚刚发布了一个文本生成速度 4 倍的 AI 模型。怎么做到的。

⭐ 精选

Google 刚刚发布了一个文本生成速度 4 倍的 AI 模型。怎么做到的。

你使用过的每一个 AI 语言模型都按同一种方式生成文本:一次一个 token,从左到右,等待每个词再生成下一个。GPT-4、Claude、Gemini 以及所有其他主流模型都是这样工作的。Google DeepMind 刚刚发布了一个不同的东西。

DiffusionGemma 是一个开源的实验性模型,每次并行生成 256 个 token——不是一次一个。结果是:文本生成速度大约是同类自回归模型的 4 倍。

「扩散」在这里到底是什么意思

你可能在图像生成的语境中听说过扩散模型——Stable Diffusion、Midjourney、DALL-E。它们的工作原理是从噪声开始,逐步迭代精炼成一张连贯的图像。DiffusionGemma 将同样的核心理念应用到了文本上。

扩散语言模型不是根据前面所有词来预测下一个词,而是从一个粗略的草稿开始,逐步精炼。模型同时查看所有 token——双向注意力——在过程中修正错误。

这是一个根本不同的架构。自回归模型只能向后看(它们还没生成未来的 token)。扩散模型可以双向看,这意味着它们在修正错误时有更多的上下文。

数据

DiffusionGemma 是一个 26B 参数的混合专家模型,但任何给定推理过程中只有 3.8B 参数处于活跃状态。这是一个关键的效率技巧——你获得了大模型的质量,而无需支付全部计算成本。

量化后,它适合 18GB 显存——在 RTX 4090 或 5090 这样的消费级 GPU 上就能运行。基准测试性能:

  • H100: 每秒 1000+ token
  • RTX 5090: 每秒 700+ token

作为对比,大多数在本地运行的生产级模型远低于这些数字。4 倍加速的说法是成立的。

它为什么场景设计

DiffusionGemma 没有被定位为通用聊天模型。Google DeepMind 指出了具体的使用场景:

  • 内联编辑 ——原地重写一段文本,模型可以同时看到前面和后面的内容
  • 代码填空 ——当函数签名和周围代码已经写好时,补全函数体
  • 本地交互式工作流 ——任何低延迟很重要且你希望在自有硬件上运行的场景

双向注意力和自我修正能力使其特别适合这些任务。自回归模型必须在看到后面的内容之前就承诺每个 token;DiffusionGemma 可以回头修改。

它是开源的

Apache 2.0 许可证发布,DiffusionGemma 完全开放。你可以商业使用、修改它并在本地运行。这是 Google DeepMind 的一个有意义的承诺——Apache 2.0 是最宽松的开源许可证之一。

这使它加入了 Gemma 已有的开放模型家族,后者已成为本地 AI 开发的热门基础。

对 OpenClaw 用户的意义

当你运行 AI 智能体时,速度非常重要。一个在 10 秒内完成任务的智能体感觉响应灵敏;一个需要 2 分钟的则感觉像瓶颈。

目前,大多数智能体工作流都被推理速度限制了——每次工具调用、每个推理步骤、每次输出都需要等待模型逐 token 生成。底层模型 4 倍加速不仅仅是线性地加快速度:它可以使整类工作流变得切实可行,而之前是不现实的。

本地模型对智能体场景越来越可行,尤其是对于你想要低延迟、隐私或离线能力的任务。DiffusionGemma——适配 18GB 显存,在消费级硬件上以 700+ token/s 运行——正是那种让运行自有智能体栈更具吸引力的发展。

OpenClaw 被设计为使用你想用的模型。随着本地模型生态的改进,运行你自己持久化 AI 智能体的理由会越来越强。

开始免费试用 →