我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
接著,老師給你一張布滿奇怪點點(在影像中就是雜訊像素)的畫布,這張神秘的紙片代表著潛在 (Latent) 空間,隱藏著你需要從老師所講述的文字中的形象,當你逐漸將這些點擦除並替換為你的想法時,你正在將它們「擴散」(Diffusion),你完成了一幅簡略的草圖,代表了你所想像到的主要物體,這幅畫還不完整,它僅僅是一個縮小版的概覽,你僅僅 Down-Sampling 了你的心象。
大家互相展示彼此的草圖,雖然每張草圖都畫了房子,但沒有兩幅是一模一樣的,接著,老師教授你一些令人驚嘆的油畫技法,幫助你填補草圖中的空白,現在你開始逐步 Up-Sampling 你的畫作,將草圖逐步完成成為一幅美麗的油畫,在這個過程中,每個人都小心地逐層 (Layer) 按部就班地控制繪製,確保畫作整體協調美觀。
當作品完成時,班上的學生們展示出他們的精彩油畫,每幅畫都展現了一棟美麗房子的不同變化。
上述流程的圖像化結果為:

從 3.A 到 3.B,再從 4.A 到 4.B 的路徑形成了一種 “U” 形,這種結構在某些架構中實現為 U-Net。
多種架構可以實現這一擴散過程,例如通過 Variational Autoencoder、Discrete Variational Encoder、U-Net、帶有注意力機制的 Transformer 編碼-解碼器、卷積神經網路、ResNet 等,然而,無論表達方式如何,它始終會遵循上圖所示的相同過程。