【Goolge 課程筆記】Introduction to Image Generation :認識圖像生成 AI

更新於 發佈於 閱讀時間約 6 分鐘
raw-image

📌 為什麼我會上這門課?

隨著 ChatGPT 上次更新了圖像生成的功能,每個社群都大量的出現吉卜力風格圖片,也延伸了許多的討論,因此突然很想知道,究竟圖像生成的 AI 是怎麼運作的,為什麼它可以進行如此仿真的生成。本次參加參加 Google 數位人才探索計畫,剛好也看到這個免費的課程,因此就一同觀看課程,了解究竟什麼是圖像生成 AI。本課程你可以學習到以下的項目:

  • 圖像生成運用哪些模型
  • 擴散模型是什麼
  • 擴散模型是如何運作的

📚 課程資訊整理

課程名稱:Introduction to Image Generation

所需時間: 15 分鐘

難易程度:入門

適合對象:設計師、PM、行銷、程式設計師

🧠 重點筆記

▋ 圖像生成式模型的類型

圖像生成模型其實在大量爆發使用前,已經發展多年,並已研發多種的模型進行運用,分別有以下四種類型:

  1. 變分自動編碼器(Variational autoencoders - VAEs):該模型會將圖像編碼成壓縮後的大小,再解碼將圖像恢復原始大小,藉由這個過程學習資料本身的分布情形。
  2. 生成對抗網路(Generative adversarial models - GANs):利用兩個類神經網路互相對抗,來強化模型,分別為「生成器」與「鑑別器」,生成器製作圖像,鑑別器鑑別圖像,透過兩個模型不斷地對抗,將能彼此不斷的提高能力,最後生成器就能製作以假亂真的圖像。
  3. 自迴歸模型 (Autoregressive models):將圖像視為像素序列來處理,自回歸模型現在的做法是參考LLM(大型語言模型),處理文字的方式,來進行圖片的生成。
  4. 擴散模型 (diffusion model):屬於較新的圖像模型,是該課程重點介紹的內容。

▋ 擴散模型的靈感來自物理學的熱力學領域

擴散模型的靈感是來自熱力學,它是在 2015 年問世。如下圖所示,一開始研究並不多,但隨著相關的研究與當今產業應用,近年的使用率大幅成長。現今耳熟能詳的先進圖像生成模型都是以擴散模型為基礎。

取自課程影片的內容。

取自課程影片的內容。

▋ 擴散模型有兩種用途

  1. 無條件式擴散模型 (Unconditioned generation):在沒有格外輸入內容或指示模型,可以用圖像訓練,已生成該圖像的新圖像,它可以利用在:
    1. 人臉合成
    2. 提高提片的解析度
  2. 有條件式擴散模型 (Conditioned generation):具備將文字轉圖像的能力,並進行圖像編輯。他經常利用在:
    1. 文字轉圖像(如:蒙娜麗莎有貓臉)
    2. 圖像修復(如:從圖像中移除女性)
    3. 文字引導的圖像轉圖像(例如:「有彩色燈光的迪斯可舞者」)

▋ 擴散模型的運作原理

本課程聚焦在無條件式擴散模型,該模型的原理是運用正向擴散(forward process)與反向擴散(reverse process),來達成圖像生成的訓練,如下圖所示:

  1. 正向擴散:把圖像不斷的加入雜訊,將資料的結構破壞。
  2. 反向擴散:將圖像不斷的去除雜訊,重組資料結構。
raw-image

▋ 擴散模型的訓練方法

了解正向擴散與負向擴散後,接下來要來理解它怎麼訓練自己的模型:

  1. 首先輸入原圖( X0 ),經由不斷的正向擴散訓練 t 次後,會得到一個訓練 t 次以後的圖像,我們稱之為 Xt 。
  2. 接下來將Xt 的次數資訊,與 A 圖放入,已 Denoising Model 去預測加入了什麼雜訊,預測出 B 圖。
  3. 最後利用 Loss 去比對 A 圖與 B圖的雜訊情形,回頭再訓練 Denoising Model 。

這個過程會盡可能減少預測雜訊和疊加至圖像的真實雜訊,兩者之間的差異,讓模型得以從真實圖像移除雜訊的能力。

raw-image

▋ 擴散模型的生成方法

在訓練完成 Denoising Model ,就可以進行圖像的生成:

  1. 首先先輸入具備雜訊的圖片至 Denoising Model。
  2. Denoising Model 會產生「預測雜訊」。
  3. 過來將原本輸入的雜訊圖,將原本的「雜訊」去扣掉「預測雜訊」,不斷的重複這個步驟,最後就可以獲得一個真實的圖像。

也就是說,模型可以透過這個方式,了解自己看到的圖像資料,並從學習分布取樣,去製作全新圖像。

raw-image

▋ 您也可以用 Google 的 Vertex AI 生成圖像

目前 Google 的 Vertex AI 有許多新技術,它能結合大型語言模型帶來強大的效果,並能根據背景資訊生成令人驚豔的逼真圖像。

📋 總結

透過本次的課程,讓我對圖像生成有了全新的理解,確實在模型上面與大型語言模型是完全不同的運用。藉由此次也理解,為什麼近年圖像生成在擴散模型(Diffusion Models)出現後,能夠快速進步並廣泛應用,原來背後關鍵,正是這套創新模型架構。

課程連結:https://www.cloudskillsboost.google/course_templates/541

留言
avatar-img
留言分享你的想法!
avatar-img
吱吱喳喳
76會員
51內容數
專注於研究 UX、行銷領域,用文字作為心得分享。
吱吱喳喳的其他內容
2025/05/04
Google NotebookLM 最新更新加入語音摘要功能,支援 50 種語言,使用者可以將筆記轉換成語音收聽,提高學習效率。此外,心智圖功能可協助整理複雜的研究資料,讓使用者更容易理解資料結構。此功能適用於各種情境,例如通勤時學習、加強記憶、以及針對特定研究主題萃取重點。
Thumbnail
2025/05/04
Google NotebookLM 最新更新加入語音摘要功能,支援 50 種語言,使用者可以將筆記轉換成語音收聽,提高學習效率。此外,心智圖功能可協助整理複雜的研究資料,讓使用者更容易理解資料結構。此功能適用於各種情境,例如通勤時學習、加強記憶、以及針對特定研究主題萃取重點。
Thumbnail
2025/05/01
這門課探討 AI 已深植日常生活,強調資訊與行動的公平、安全與倫理重要性。內容聚焦如何打造符合價值觀、值得信任的 AI,說明 Google 的開發原則、實踐方法及七大與四不原則,強調負責任 AI 是企業價值與產品成功的關鍵。
Thumbnail
2025/05/01
這門課探討 AI 已深植日常生活,強調資訊與行動的公平、安全與倫理重要性。內容聚焦如何打造符合價值觀、值得信任的 AI,說明 Google 的開發原則、實踐方法及七大與四不原則,強調負責任 AI 是企業價值與產品成功的關鍵。
Thumbnail
2025/04/26
文章提供關於大型語言模型 (LLM) 的課程筆記,涵蓋 LLM 的定義、特性、優勢、技術架構、開發方式與傳統機器學習的差異、三種類型,以及提示設計 (Prompt Design) 與提示工程 (Prompt Engineering) 的重要性。課程旨在幫助行銷人等專業人士瞭解 LLM 的基礎知識。
Thumbnail
2025/04/26
文章提供關於大型語言模型 (LLM) 的課程筆記,涵蓋 LLM 的定義、特性、優勢、技術架構、開發方式與傳統機器學習的差異、三種類型,以及提示設計 (Prompt Design) 與提示工程 (Prompt Engineering) 的重要性。課程旨在幫助行銷人等專業人士瞭解 LLM 的基礎知識。
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
本文將延續上一篇文章,經由訓練好的VAE模型其中的解碼器,來生成圖片。 [深度學習]訓練VAE模型用於生成圖片_訓練篇 輸入產生的隨機雜訊,輸入VAE的解碼器後,生成的圖片
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
在學習描寫文的過程中,將思維視覺化是一個重要的教學策略。通過使用AI生成圖片功能,教師能夠幫助學生將抽象的描述轉化為具體的圖像。
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
Thumbnail
AI生成動漫圖片 爆出資料庫中有真人兒色
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News