擴散模型(Diffusion Models) ,幾乎重塑了整個生成式 AI 的版圖。從圖像到音頻,從視頻到 3D 世界。
然而,當人們真正想理解它的原理時,卻往往不得不在海量論文之間反復查找、跳轉(zhuǎn)、拼湊概念。
如果你也曾厭倦了一遍又一遍地翻閱原始論文,這本專著《The Principles of Diffusion Models》,將成為你系統(tǒng)理解擴散模型的可靠指南與理論起點。
作者團隊來自 Sony AI、OpenAI 和斯坦福大學。值得一提的是,書籍作者之一、原 OpenAI 戰(zhàn)略探索團隊負責人宋飏(Yang Song)也在作者欄中,不過,上個月,宋飏已經(jīng)加入 Meta,成為 Meta 超級智能實驗室(MSL)研究負責人。

本書系統(tǒng)梳理了擴散模型的發(fā)展脈絡(luò)與核心思想,并深入解析了這些模型如何工作、為何有效、以及未來將走向何方。它不僅回顧了理論起點,也以統(tǒng)一的數(shù)學框架串聯(lián)了變分、得分與流等多種視角。
可以說,本書既是研究者的系統(tǒng)參考資料,也是初學者進入擴散模型世界的友好入門讀物。

論文地址:https://arxiv.org/pdf/2510.21890
不過,理解該書需要一定的基礎(chǔ)(因為 460 多頁的研究幾乎每一章都貫穿著嚴密的數(shù)學推導與公式展開),主要面向具有深度學習基礎(chǔ),或具備深度生成建模初步認識的研究人員、研究生及從業(yè)者。
通過閱讀本書,讀者將能夠清晰了解到擴散模型的起源、主要公式之間的聯(lián)系,以及當今方法如何實現(xiàn)可控性和速度,從而催生下一代基于擴散的生成模型:流圖模型族。此外,你還可以學到:
- 統(tǒng)一的視角,將變分自編碼器 (VAE)、基于得分(基于能量)和基于流(歸一化流)的方法聯(lián)系起來 —— 所有這些方法都可視為變量隨時間變化的簡單過程。
- 引導和數(shù)值求解器如何使生成過程更快、更可控。
- 流圖模型(例如,一致性模型、一致性軌跡模型、平均流)的興起如何塑造下一代生成式人工智能。
有網(wǎng)友表示:「這是一本非常詳盡的關(guān)于擴散模型原理的書籍。通過仔細閱讀,我們可以學習擴散模型背后的所有核心概念。」

以下篇幅,我們將整理本文的基本內(nèi)容和結(jié)構(gòu),簡要概括這一史上最全的擴散模型理論研究的核心亮點。
核心內(nèi)容
與傳統(tǒng)生成模型直接學習從噪聲到數(shù)據(jù)的映射不同,擴散模型將生成過程視為一種隨時間逐步演化的變換,通過多階段的推理不斷將粗略結(jié)構(gòu)細化為精致細節(jié)。圍繞這一核心思想,該領(lǐng)域的研究者從三種主要視角對其進行了發(fā)展:變分方法(variational)、基于得分的方法(score-based)和基于流的方法(flow-based)—— 這些視角為理解與實現(xiàn)擴散建模提供了互補的框架。
在此基礎(chǔ)上,研究者進一步探討擴散模型如何實現(xiàn)更高效的樣本生成、在生成過程中獲得更強的可控性,并推動基于擴散原理的獨立生成建模形式的發(fā)展。
擴散模型的基礎(chǔ)原理
本部分回溯擴散模型的起源,系統(tǒng)梳理塑造該領(lǐng)域的三種奠基性視角。
