【茶水間 AI 實戰】第三卷:生成模型的分支譜系 AI 是怎麼「無中生有」的? GAN × VAE

更新 發佈閱讀 12 分鐘

如果老闆要求 AI 不只會讀資料,還要直接「無中生有」產出能賣錢的廣告圖跟感人文案,AI 到底是怎麼做到的?

在這一篇《白話實驗室》中,我們將重返 Brainstorm 數位行銷公司的創意會議室。這一次,我們不打內戰,而是要攤開一張龐大的「AI 家族族譜」,看看這些能創造萬物的神仙,究竟是從哪個門派分支發展出來的!

📖 第三卷:生成模型的分支譜系(模型類型)

(畫面轉場)

「歡迎來到白話實驗室。」

我是日野遼。如果你以為 AI 畫圖或寫文章都只用同一套魔法,那接下來的內容絕對會顛覆你的想像。

今天,首席研究員「宙猩」將帶我們深入 AI 的造物工坊,解析這張精密的「生成模型分支譜系圖」,教你一眼看穿 AI 是用哪種套路變出神作的!


Step 1: 職場情境劇 (Story Mode)

🎬 劇名:《創意大爆發的 AI 譜系圖》

【主要角色】

  • Jason(行銷總監 / 慣老闆): 想要一鍵生成「賽博龐克風的珍奶廣告」,而且要圖文並茂。
  • 艾莉 (Elly): 負責調度各路 AI 高手的專案經理。
  • 阿強(資深美編): 負責把關圖片品質的苦命設計師。

【劇情開始】 地點:Brainstorm 行銷公司 會議室。

「艾莉,我要那種『哇!』一聲的視覺圖,還要配上感人的文案。」Jason 總監比手畫腳,「叫那個最強的 AI 出來,一鍵幫我搞定!」

艾莉推了推眼鏡,在白板上展開了一張龐大的樹狀圖:「總監,要讓 AI 無中生有,我們得先看懂這張『分支譜系圖』。一切的源頭,是吸收了海量數據、打好萬能地基的 基礎模型 (Foundation Model)。從它向下延伸,衍生出了專門創造新內容的大家族—— 生成模型 (Generative Model)。」

「那誰負責畫圖?」阿強緊盯著圖表。

艾莉指著左邊的三個分支:「影像譜系有三大流派。第一支是 GAN,它是一對冤家(偽畫天才與機車鑑定師),靠著互相欺騙對抗來產出逼真圖片。第二支是 VAE,它是柔焦大師,喜歡把圖片壓縮成機密代碼再還原,畫面平滑但有時偏模糊。」

艾莉接著指向最粗的分支:「第三支是現在稱霸畫壇的 擴散模型 (Diffusion Model) 家族。它最正宗的練法叫 擴散概率模型,原理是把一幅畫噴滿雜訊墨水,再一滴滴吸回來(去噪)。但這樣太慢了,所以進化出了 潛在擴散模型 (Latent Diffusion),聰明地在『縮小版的特徵空間』裡吸墨水,速度快又精緻!」

「那文案呢?誰來寫?」Jason 問。

艾莉指著右邊的文字分支:「這要靠預測序列的譜系。最經典的是 自回歸模型 (Autoregressive),就像在玩究極文字接龍;而專門特化來寫文章的,就叫 自回歸語言模型。另外還有一種分支叫 遮罩語言模型 (MLM),它不玩接龍,它玩『克漏字填空』,專門挖掉句子中間的字來猜,理解上下文的能力超強。」

「最後,」艾莉用紅筆圈起圖表最下方,「總監你說要『圖文並茂』,這就需要跨界通才 多模態模型,它能同時處理圖片跟文字。而你規定要『賽博龐克風』,這就是啟動了 條件生成模型 的機制,讓 AI 乖乖聽你的『條件咒語』來產出內容!」

Jason 拍手叫好:「好!譜系這麼清楚,趕快讓這群造物主開工吧!」


Step 2: 觀念對照表 (Decoding)

🐒 宙猩解碼時間 看懂了這張族譜,是不是對「生成」這件事有畫面了?現在,跟著宙猩一起,把這些譜系神技嚴格對齊到正式的技術專有名詞上:

  • 🏛️ 基礎模型 (Foundation Model)
    • 白話解析: 萬能地基打得穩,博學多才。
    • 核心概念: 在大規模數據上預先訓練,可適應多種下游任務的超大型模型。
  • 🪄 生成模型 (Generative Model)
    • 白話解析: 造物總稱,無中生有。
    • 核心概念: 能夠學習數據分佈,並生成全新、相似於訓練數據內容的模型總稱。
  • 🤼 GAN
    • 白話解析: 偽畫對抗鑑定師(影像分支)。
    • 核心概念: 生成對抗網路。由生成器與判別器組成,透過對抗過程學習生成逼真資料。
  • 🌫️ VAE
    • 白話解析: 壓縮還原機密碼(影像分支)。
    • 核心概念: 變分自編碼器。透過潛在空間的機率分佈來生成資料,生成圖片平滑。
  • 💦 擴散模型 (Diffusion Model)
    • 白話解析: 吸墨水魔法統稱(影像分支)。
    • 核心概念: 透過逆轉加噪過程(去噪)來生成高品質資料的模型統稱。
  • 🎲 擴散概率模型
    • 白話解析: 基礎的加噪去噪過程。
    • 核心概念: 擴散模型的一種基礎形式,利用馬可夫鏈定義加噪與去噪的機率過程。
  • 🔍 潛在擴散模型 (Latent Diffusion)
    • 白話解析: 縮小空間算得快。
    • 核心概念: 在壓縮的特徵空間 (Latent Space) 進行擴散過程,大幅降低計算量(如 Stable Diffusion)。
  • 🚂 自回歸模型 (Autoregressive)
    • 白話解析: 序列往下接龍(文字分支)。
    • 核心概念: 根據已生成的歷史序列,預測下一個元素的模型統稱。
  • 📝 自回歸語言模型
    • 白話解析: 專精文字接龍寫文案。
    • 核心概念: 專門應用於自然語言的自回歸模型(如 GPT 系列),執行文字接龍。
  • 🕳️ 遮罩語言模型 (MLM)
    • 白話解析: 挖洞玩克漏字填空。
    • 核心概念: 隨機遮蔽輸入序列中的部分標記,讓模型預測被遮蔽內容,理解上下文能力強(如 BERT)。
  • 🎨 多模態模型
    • 白話解析: 圖文影音跨界全能鋒。
    • 核心概念: 能同時處理與關聯不同類型資料(如文字、影像、聲音)的模型。
  • 🎛️ 條件生成模型
    • 白話解析: 聽從條件與咒語出貨。
    • 核心概念: 生成過程受特定條件(如文字提示 Prompt、類別標籤)引導與控制。

Step 3: 職場情境探討 (Apply Mode)

👓 日野遼的實戰道場

看懂了這張 AI 族譜,現在換你來當總監點將了!宙猩準備了 3 個真實的職場情境,看看你能不能精準派對模型出場解決問題:

📝 【情境 1|文字處理譜系的抉擇】

公司開發了一款 AI 寫作助手,需要模型能根據使用者輸入的「上半段句子」,順暢地「接續寫出下半段」。這種「文字接龍」的邏輯,該派誰出場?

💡 宙猩解答:找「自回歸語言模型

🧠 原理白話解: 「接續寫出下半段」就是預測下一個字的接龍行為,這是典型的自回歸語言模型(如 GPT 的專長)。如果任務是修補句子中間漏掉的字(克漏字填空),才會找遮罩語言模型 (MLM)。

📝 【情境 2|提升算圖效率的關鍵進化】

老闆問,為什麼現在的開源 AI 繪圖工具,連一般家用電腦的顯示卡都能跑得動?它是用了擴散模型譜系中的哪一項具體技術來瘦身的?

💡 宙猩解答:歸功於「潛在擴散模型 (Latent Diffusion)

🧠 原理白話解: 關鍵進化在於「潛在 (Latent)」。它先將龐大的像素圖片壓縮,然後在計算量極小的「潛在空間」裡執行擴散(吸墨水)運算,速度和效能都遠勝於在像素層級運作的原始擴散概率模型。

📝 【情境 3|模型控制與整合】

設計師阿強輸入咒語「一隻戴著墨鏡的狗」,AI 就精準地無中生有畫出了這張圖。這個過程到底融合了哪些模型技術?

💡 宙猩解答:多模態模型條件生成模型生成模型

🧠 原理白話解: 輸入文字產出圖片,跨越了圖文邊界,這是「多模態模型」的作用;聽從「咒語」指令,運用了「條件生成模型」;而無中生有畫出圖片,自然是「生成模型」的看家本領。這整套流程中唯一用不到的,就是專門做文字接龍的自回歸模型。


Step 4: 洗腦速記表 (Cheat Sheet)

🦍 宙猩的速記大補帖 生成族譜太龐大?把這份口訣存進手機,開會或提案前瞄一眼,12 個名詞瞬間解鎖,讓老闆覺得你超級專業!

  • 🏛️ 基礎模型 👉 萬能地基打得穩,博學多才第一名
  • 🪄 生成模型 👉 造物總稱無中生有,創造新資料
  • 🤼 GAN 👉 偽畫對抗鑑定師,互搏出奇蹟
  • 🌫️ VAE 👉 壓縮還原機密碼,平滑又朦朧
  • 💦 擴散模型 👉 統稱吸墨水魔法,去噪變神作
  • 🎲 擴散概率模型 👉 基礎馬可夫鏈,逐步加噪去噪
  • 🔍 潛在擴散模型 👉 壓縮空間算得快,效能大進化
  • 🚂 自回歸模型 👉 序列接龍往下預測
  • 📝 自回歸語言模型 👉 專精文字接龍,寫文案最強
  • 🕳️ 遮罩語言模型 (MLM) 👉 挖洞玩克漏字,上下文最懂
  • 🎨 多模態模型 👉 圖文影音皆精通,跨界全能鋒
  • 🎛️ 條件生成模型 👉 聽從條件與咒語,客製化出貨

🚀 下集預告:第四卷 古典流派的逆襲(傳統機器學習)

看完了生成模型的華麗族譜,你以為 AI 這樣就天下無敵了嗎?

當老闆丟給你一份幾百萬筆客戶資料的 Excel 報表,這些會畫圖、會寫詩的 AI 竟然可能當場「腦袋轉不過來」!

下一集,日野遼和宙猩要喚醒數據界的老將們: 從鐵口直斷的線性回歸,到百人投票的隨機森林,帶你看懂「古典流派」為什麼在現代職場依然超級能打💪


💬 讀者互動時間|如果只能選一派救公司,你選誰?

請在留言區告訴宙猩你的選擇與理由! 面對老闆的奪命連環催,你是要「能快速交差」、還是「準到爆」、還是「最好跟老闆解釋」?

  • A. 線性回歸(Linear Regression) 快狠準的老派預測,簡單粗暴但直指核心。
  • B. 決策樹 / 隨機森林(Decision Tree / Random Forest) 開會投票派:穩、耐用、好解釋,不怕老闆聽不懂。
  • C. 梯度提升模型(GBDT / XGBoost) 爆肝高手派:數據競賽與業界常勝軍,追求極致的準確度!

下一集《白話實驗室》,我們不見不散!

喜歡這篇文章嗎?別忘了按下愛心並追蹤,第一時間接收最新白話 AI 科普!

🏷️ 關鍵字: #白話實驗室 #機器學習 #資料科學 #AI科普 #職場生存指南


📚 教材章節對應索引(WHITE LAB|Vol.03)

本篇為《第三卷:生成模型原理(模型類型)》之導讀總覽故事, 內容涵蓋以下五個教材章節之核心技術定義:

  • 🔹第三卷 第一章:Foundation Model
    • 基礎模型(Foundation Model)
    • 生成模型(Generative Model)
  • 🔹第三卷 第二章:GAN / VAE
    • GAN(生成對抗網路)
    • VAE(變分自編碼器)
  • 🔹第三卷 第三章:Diffusion 家族
    • 擴散模型(Diffusion Model)
    • 擴散概率模型(Diffusion Probabilistic Model)
    • 潛在擴散模型(Latent Diffusion Model)
  • 🔹第三卷 第四章:Autoregressive / MLM
    • 自回歸模型(Autoregressive Model)
    • 自回歸語言模型(Autoregressive Language Model)
    • 遮罩語言模型(Masked Language Model, MLM)
  • 🔹第三卷 第五章:Multimodal / Conditional
    • 多模態模型(Multimodal Model)
    • 條件生成模型(Conditional Generative Model)

📌 本卷共收錄 12 項生成模型類型專有名詞, 作為後續「古裝版教材」、「iPAS 模擬題」與「觀念對照卡」生成之依據。

留言
avatar-img
WHITE LAB|白話實驗室的沙龍
0會員
5內容數
透過職場情境與白話比喻, 將 CNN、Transformer、Agent 等生成式 AI 概念, 轉譯為非工程背景也能理解的知識內容。
2026/02/28
本文透過武俠情境,生動比喻並介紹了 GPT、DALL-E、MidJourney、Stable Diffusion 及 CLIP 等生成式 AI 工具的應用。文章以「神機營」為背景,將 AI 工具擬人化為「傳世法寶」,說明如何在緊迫時限內,利用這些法寶解決安家山莊的危機。
Thumbnail
2026/02/28
本文透過武俠情境,生動比喻並介紹了 GPT、DALL-E、MidJourney、Stable Diffusion 及 CLIP 等生成式 AI 工具的應用。文章以「神機營」為背景,將 AI 工具擬人化為「傳世法寶」,說明如何在緊迫時限內,利用這些法寶解決安家山莊的危機。
Thumbnail
2026/02/27
本文釐清 AI「使用」與「引用」的根本差異,解析模型訓練內化與回答時啟動檢索(RAG)之間的區別,並預告後續實測不同問法是否影響引用機率。
Thumbnail
2026/02/27
本文釐清 AI「使用」與「引用」的根本差異,解析模型訓練內化與回答時啟動檢索(RAG)之間的區別,並預告後續實測不同問法是否影響引用機率。
Thumbnail
2026/02/24
本篇為《白話實驗室》第二章 AI 教材模組,介紹神經網路核心架構: CNN、RNN、LSTM、GRU 與 T(Transformer)。 解析各模型適用的資料型態與處理能力,說明現代大型語言模型(如 GPT)為何建立於 T 架構之上,適用於 AI 入門與 iPAS 應用規劃師考試基礎知識。
Thumbnail
2026/02/24
本篇為《白話實驗室》第二章 AI 教材模組,介紹神經網路核心架構: CNN、RNN、LSTM、GRU 與 T(Transformer)。 解析各模型適用的資料型態與處理能力,說明現代大型語言模型(如 GPT)為何建立於 T 架構之上,適用於 AI 入門與 iPAS 應用規劃師考試基礎知識。
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
當市場還在討論AI聊天機器人與晶片需求時,另一條巨大的產業浪潮其實已經悄悄形成——AI生成影片。 近期 Seedance2.0 的推出,讓市場再次意識到一件事: AI 不只會寫文章、生成圖片,而是正在直接改寫整個影視產業的製作方式。 這不是單一技術升級,而是一場成本結構革命。
Thumbnail
當市場還在討論AI聊天機器人與晶片需求時,另一條巨大的產業浪潮其實已經悄悄形成——AI生成影片。 近期 Seedance2.0 的推出,讓市場再次意識到一件事: AI 不只會寫文章、生成圖片,而是正在直接改寫整個影視產業的製作方式。 這不是單一技術升級,而是一場成本結構革命。
Thumbnail
1. 主要特點 (Nano Banana Pro) 這款模型被視為 Google 在影像生成領域的重大升級,主要解決了過去 AI 繪圖的幾個痛點: 繁體中文支援度極高: 這是對台灣用戶最有感的升級。它能精準理解並在圖片中「寫出」正確的繁體中文字(例如海報、招牌文字),不再出現亂碼或缺筆畫的情況。
Thumbnail
1. 主要特點 (Nano Banana Pro) 這款模型被視為 Google 在影像生成領域的重大升級,主要解決了過去 AI 繪圖的幾個痛點: 繁體中文支援度極高: 這是對台灣用戶最有感的升級。它能精準理解並在圖片中「寫出」正確的繁體中文字(例如海報、招牌文字),不再出現亂碼或缺筆畫的情況。
Thumbnail
使用 HitPaw FotorPea 軟體和 Nano Banana 模型,輕鬆生成高質感 Chiikawa 擬真手辦圖片!簡單步驟,無需 3D 建模技巧或 VPN,即可擁有心愛角色的超精緻手辦。軟體更支援照片修復、去背、背景替換等功能。
Thumbnail
使用 HitPaw FotorPea 軟體和 Nano Banana 模型,輕鬆生成高質感 Chiikawa 擬真手辦圖片!簡單步驟,無需 3D 建模技巧或 VPN,即可擁有心愛角色的超精緻手辦。軟體更支援照片修復、去背、背景替換等功能。
Thumbnail
Midjourney AI影片生成模型V1近期上線後,立即引爆AI圈的話題,其圖片轉影片效果絕佳,無論是真人或是動漫風格,全都能一鍵生成動圖,效果不僅逼真、自然順暢,生成速度居然跟圖片生成差不多快,直接完勝可靈 (Kling)、Sora等一眾AI影片生成工具!
Thumbnail
Midjourney AI影片生成模型V1近期上線後,立即引爆AI圈的話題,其圖片轉影片效果絕佳,無論是真人或是動漫風格,全都能一鍵生成動圖,效果不僅逼真、自然順暢,生成速度居然跟圖片生成差不多快,直接完勝可靈 (Kling)、Sora等一眾AI影片生成工具!
Thumbnail
2025年6月,Midjourney團隊正式發布其首款影片生成模型「Midjourney Video V1」,引起全球創作者圈與科技媒體的高度關注。該模型主打「一圖生成動畫」,運用AI插值技術與畫格合成邏輯,讓靜態影像搖身一變成為視覺流暢的短秒數影片。
Thumbnail
2025年6月,Midjourney團隊正式發布其首款影片生成模型「Midjourney Video V1」,引起全球創作者圈與科技媒體的高度關注。該模型主打「一圖生成動畫」,運用AI插值技術與畫格合成邏輯,讓靜態影像搖身一變成為視覺流暢的短秒數影片。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
Thumbnail
隨著AI板塊的爆發,各大科技巨頭之間的競爭愈發激烈。尤其是Google與微軟這兩個搜尋引擎的老對手,都想借AI的東風,升級各自的科技服務。微軟背後有OpenAI的ChatGPT技術加持,始終壓Google一頭。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News