【資料圖】
IT之家 6 月 11 日消息,谷歌今天(6 月 11 日)發布公告,宣布推出 DiffusionGemma,是基于文本擴散機制的開放 AI 模型,相比較自回歸模型在本地推理速度上提升了 4 倍。
IT之家注:自回歸模型(Autoregressive Model)是當前主流的大語言模型架構(如 GPT、Gemini),按照從左到右的順序逐個生成 Tokens。該架構在云端批處理場景下效率較高,但在本地推理時受限于內存帶寬,存在計算資源浪費問題。
而擴散模型(Diffusion Model)通過從噪聲中逐步去噪的方式生成輸出。與自回歸模型逐個生成 token 不同,擴散模型并行處理所有 token,逐步優化整體輸出質量,在本地低帶寬計算環境下具有顯著的推理速度優勢。
開源方面,該模型能力與其他 Gemma 4 模型相當,但推理效率顯著更高。該模型采用 Apache 2.0 許可證開源,用戶可從 Hugging Face 下載模型權重。
質量方面,模型還支持迭代優化,能在生成過程中主動糾正錯誤,輸出更加穩定一致。采樣速度達到 1479 tokens / 秒,開銷僅 0.84 秒,生成效率顯著提升。
性能方面,代碼生成上,LiveCodeBench 達 30.9%,BigCodeBench 達 45.4%,HumanEval 達 89.6%,與 Gemini 2.0 Flash-Lite 互有勝負。
數學能力表現亮眼,AIME 2025 取得 23.3%,超越對比模型的 20.0%,展現出擴散架構在推理任務上的潛力。
不過模型在部分基準上仍存短板??茖W推理 GPQA Diamond 僅 40.4%,明顯低于對比模型的 56.5%;推理能力 BIG-Bench Extra Hard 為 15.0%,同樣落后于 21.0%。
速度方面,英偉達在官方博文中指出,該模型的擴散設計,能充分發揮英偉達 GPU 的 Tensor Core 并行計算能力。
在單塊 H100 GPU 上,DiffusionGemma 達到每秒 1000 個 token 的生成速度;在 DGX Spark 上為每秒 150 個 token;在 DGX Station 上可達每秒 2000 個 token,約為同等條件下自回歸模型的 4 倍。