
📌 為什麼我會上這門課?
隨著 ChatGPT 上次更新了圖像生成的功能,每個社群都大量的出現吉卜力風格圖片,也延伸了許多的討論,因此突然很想知道,究竟圖像生成的 AI 是怎麼運作的,為什麼它可以進行如此仿真的生成。本次參加參加 Google 數位人才探索計畫,剛好也看到這個免費的課程,因此就一同觀看課程,了解究竟什麼是圖像生成 AI。本課程你可以學習到以下的項目:
- 圖像生成運用哪些模型
- 擴散模型是什麼
- 擴散模型是如何運作的
📚 課程資訊整理
課程名稱:Introduction to Image Generation
所需時間: 15 分鐘難易程度:入門
適合對象:設計師、PM、行銷、程式設計師
🧠 重點筆記
▋ 圖像生成式模型的類型
圖像生成模型其實在大量爆發使用前,已經發展多年,並已研發多種的模型進行運用,分別有以下四種類型:
- 變分自動編碼器(Variational autoencoders - VAEs):該模型會將圖像編碼成壓縮後的大小,再解碼將圖像恢復原始大小,藉由這個過程學習資料本身的分布情形。
- 生成對抗網路(Generative adversarial models - GANs):利用兩個類神經網路互相對抗,來強化模型,分別為「生成器」與「鑑別器」,生成器製作圖像,鑑別器鑑別圖像,透過兩個模型不斷地對抗,將能彼此不斷的提高能力,最後生成器就能製作以假亂真的圖像。
- 自迴歸模型 (Autoregressive models):將圖像視為像素序列來處理,自回歸模型現在的做法是參考LLM(大型語言模型),處理文字的方式,來進行圖片的生成。
- 擴散模型 (diffusion model):屬於較新的圖像模型,是該課程重點介紹的內容。
▋ 擴散模型的靈感來自物理學的熱力學領域
擴散模型的靈感是來自熱力學,它是在 2015 年問世。如下圖所示,一開始研究並不多,但隨著相關的研究與當今產業應用,近年的使用率大幅成長。現今耳熟能詳的先進圖像生成模型都是以擴散模型為基礎。

取自課程影片的內容。
▋ 擴散模型有兩種用途
- 無條件式擴散模型 (Unconditioned generation):在沒有格外輸入內容或指示模型,可以用圖像訓練,已生成該圖像的新圖像,它可以利用在:
- 人臉合成
- 提高提片的解析度
- 有條件式擴散模型 (Conditioned generation):具備將文字轉圖像的能力,並進行圖像編輯。他經常利用在:
- 文字轉圖像(如:蒙娜麗莎有貓臉)
- 圖像修復(如:從圖像中移除女性)
- 文字引導的圖像轉圖像(例如:「有彩色燈光的迪斯可舞者」)
▋ 擴散模型的運作原理
本課程聚焦在無條件式擴散模型,該模型的原理是運用正向擴散(forward process)與反向擴散(reverse process),來達成圖像生成的訓練,如下圖所示:
- 正向擴散:把圖像不斷的加入雜訊,將資料的結構破壞。
- 反向擴散:將圖像不斷的去除雜訊,重組資料結構。

▋ 擴散模型的訓練方法
了解正向擴散與負向擴散後,接下來要來理解它怎麼訓練自己的模型:
- 首先輸入原圖( X0 ),經由不斷的正向擴散訓練 t 次後,會得到一個訓練 t 次以後的圖像,我們稱之為 Xt 。
- 接下來將Xt 的次數資訊,與 A 圖放入,已 Denoising Model 去預測加入了什麼雜訊,預測出 B 圖。
- 最後利用 Loss 去比對 A 圖與 B圖的雜訊情形,回頭再訓練 Denoising Model 。
這個過程會盡可能減少預測雜訊和疊加至圖像的真實雜訊,兩者之間的差異,讓模型得以從真實圖像移除雜訊的能力。

▋ 擴散模型的生成方法
在訓練完成 Denoising Model ,就可以進行圖像的生成:
- 首先先輸入具備雜訊的圖片至 Denoising Model。
- Denoising Model 會產生「預測雜訊」。
- 過來將原本輸入的雜訊圖,將原本的「雜訊」去扣掉「預測雜訊」,不斷的重複這個步驟,最後就可以獲得一個真實的圖像。
也就是說,模型可以透過這個方式,了解自己看到的圖像資料,並從學習分布取樣,去製作全新圖像。

▋ 您也可以用 Google 的 Vertex AI 生成圖像
目前 Google 的 Vertex AI 有許多新技術,它能結合大型語言模型帶來強大的效果,並能根據背景資訊生成令人驚豔的逼真圖像。
📋 總結
透過本次的課程,讓我對圖像生成有了全新的理解,確實在模型上面與大型語言模型是完全不同的運用。藉由此次也理解,為什麼近年圖像生成在擴散模型(Diffusion Models)出現後,能夠快速進步並廣泛應用,原來背後關鍵,正是這套創新模型架構。
課程連結:https://www.cloudskillsboost.google/course_templates/541