技术背景
2025年5月,谷歌在Google I/O开发者大会上发布Gemini Diffusion,首次将扩散模型(Diffusion Model)技术引入文本生成领域,颠覆了传统自回归语言模型(如GPT系列)的逐词生成模式[9][12]。该模型通过噪声迭代优化实现并行化生成,推理速度高达2000 token/秒,较传统模型提升5倍,且在数学推导、代码生成等任务中展现出更强的连贯性和纠错能力[11][12]。
核心创新
- 扩散机制重构文本生成逻辑
- 传统自回归模型依赖单向因果推理(如GPT-4o),而Gemini Diffusion通过动态分层稀疏策略,将输入序列分为压缩注意力(全局模式)、选择性注意力(关键词块)和滑动注意力(局部上下文)三条并行分支,实现非因果推理[8][11]。
- 例如,在数学问题“”中,模型可跳过中间步骤直接推导答案(39),而传统模型因严格自回归限制无法完成此类任务[11]。
- 硬件对齐优化
- 结合现代GPU架构特性,Gemini Diffusion采用动态计算密度平衡算法,减少冗余层计算,使12秒内生成10,095 token成为可能[11][12]。谷歌演示中需刻意降速以展示生成过程[12]。
- 垂直领域性能突破
- 编程任务:HumanEval代码测试通过率89.6%,与Gemini 2.0 Flash-Lite持平[10]。
- 数学推理:AIME 2025竞赛准确率23.3%,超越同类模型3.3%[10]。
行业影响与挑战
- 实时交互场景:影视剧本预生成、在线教育答疑等需低延迟的应用成本下降60%[9][12]。
- 安全风险:扩散模型的并行生成可能加剧有害内容传播,谷歌通过“思维摘要”功能增强透明度[9]。
- 局限性:通用知识任务(如MMLU多学科问答)准确率仅69.1%,显著低于GPT-4(86.4%)[10]。
未来展望
谷歌计划于2025年6月向开发者开放Gemini Diffusion API,并探索与Android系统的深度整合[9]。学术界认为,该技术可能推动混合架构(扩散+自回归)成为下一代语言模型的主流方向[11]。