AI研究周报(七)：扩散模型的早期信号

文章目录

生成模型这条线这些年一直很热闹，GAN 曾经是最亮眼的主角，但最近再看 DDPM 一类扩散模型的工作，会感觉到一种不太一样的气质：它不靠极度激进的对抗训练，而是走了一条更稳定、更物理、更逐步逼近数据分布的路线。

扩散模型在做什么

如果用直观的话来讲，扩散模型的过程可以分成两步：

这个思路的好处在于，生成过程被拆成很多小步，每一步都只需要处理一个相对局部的去噪任务。

GAN 的问题大家都很熟：不稳定、容易模式崩塌、调参痛苦。扩散模型虽然慢，但训练目标相对更清晰，优化过程也更可控。

过去大家会觉得这类方法只是“概念好看”，但现在已经能看到它在图像生成质量上具备很强竞争力。只要后面采样效率继续改进，它的吸引力会越来越大。

扩散模型给人的感觉不是纯工程 trick，而是和概率建模、分布演化有更自然的对应关系。这让它在理论和方法演化上都很有空间。

这是扩散模型最明显的短板。一步步去噪意味着推理链路长，真正落到交互式产品时会有明显压力。

GAN 相关经验和工具积累更多，而扩散模型目前还像一个正在快速成长的新方向。

现在看到的亮点主要集中在图像生成，但这条路线能不能自然扩展到更多模态，仍然需要继续观察。

我觉得扩散模型最大的价值，是它给生成建模提供了另一种主线：

如果后续有人把采样速度问题解决掉，这类方法可能会有非常大的爆发力。

现在下结论说扩散模型会完全替代别的生成路线还太早，但它已经发出了一个很强的信号：生成模型的主战场，未必只属于 GAN。稳定、可解释、逐步还原的建模思路，可能会在后面带来更大的惊喜。