AI研究周报(七):扩散模型的早期信号
文章目录
生成模型这条线这些年一直很热闹,GAN 曾经是最亮眼的主角,但最近再看 DDPM 一类扩散模型的工作,会感觉到一种不太一样的气质:它不靠极度激进的对抗训练,而是走了一条更稳定、更物理、更逐步逼近数据分布的路线。
扩散模型在做什么
如果用直观的话来讲,扩散模型的过程可以分成两步:
- 先把真实数据一步步加噪,直到接近纯噪声
- 再训练一个模型学习如何把噪声一步步还原回有结构的数据
这个思路的好处在于,生成过程被拆成很多小步,每一步都只需要处理一个相对局部的去噪任务。
为什么值得关注
1. 训练目标更稳定
GAN 的问题大家都很熟:不稳定、容易模式崩塌、调参痛苦。扩散模型虽然慢,但训练目标相对更清晰,优化过程也更可控。
2. 生成质量正在逼近甚至挑战主流路线
过去大家会觉得这类方法只是“概念好看”,但现在已经能看到它在图像生成质量上具备很强竞争力。只要后面采样效率继续改进,它的吸引力会越来越大。
3. 与概率建模联系更紧
扩散模型给人的感觉不是纯工程 trick,而是和概率建模、分布演化有更自然的对应关系。这让它在理论和方法演化上都很有空间。
当前最现实的问题
采样慢
这是扩散模型最明显的短板。一步步去噪意味着推理链路长,真正落到交互式产品时会有明显压力。
工程生态还早
GAN 相关经验和工具积累更多,而扩散模型目前还像一个正在快速成长的新方向。
应用边界还没完全打开
现在看到的亮点主要集中在图像生成,但这条路线能不能自然扩展到更多模态,仍然需要继续观察。
我更看重的地方
我觉得扩散模型最大的价值,是它给生成建模提供了另一种主线:
- 不一定非要靠对抗训练
- 可以用多步逼近的方式做高质量生成
- 训练稳定性本身也是核心竞争力
如果后续有人把采样速度问题解决掉,这类方法可能会有非常大的爆发力。
小结
现在下结论说扩散模型会完全替代别的生成路线还太早,但它已经发出了一个很强的信号:生成模型的主战场,未必只属于 GAN。稳定、可解释、逐步还原的建模思路,可能会在后面带来更大的惊喜。

