【茶水間 AI 實戰】第三卷：生成模型的分支譜系 AI 是怎麼「無中生有」的？ GAN × VAE

WHITE LAB｜白話實驗室

2026/03/03 更新2026/03/03 發佈閱讀 12 分鐘

如果老闆要求 AI 不只會讀資料，還要直接「無中生有」產出能賣錢的廣告圖跟感人文案，AI 到底是怎麼做到的？

在這一篇《白話實驗室》中，我們將重返 Brainstorm 數位行銷公司的創意會議室。這一次，我們不打內戰，而是要攤開一張龐大的「AI 家族族譜」，看看這些能創造萬物的神仙，究竟是從哪個門派分支發展出來的！

📖 第三卷：生成模型的分支譜系（模型類型）

(畫面轉場)

「歡迎來到白話實驗室。」

我是日野遼。如果你以為 AI 畫圖或寫文章都只用同一套魔法，那接下來的內容絕對會顛覆你的想像。

今天，首席研究員「宙猩」將帶我們深入 AI 的造物工坊，解析這張精密的「生成模型分支譜系圖」，教你一眼看穿 AI 是用哪種套路變出神作的！

Step 1: 職場情境劇 (Story Mode)

🎬 劇名：《創意大爆發的 AI 譜系圖》

【主要角色】
Jason（行銷總監 / 慣老闆）：想要一鍵生成「賽博龐克風的珍奶廣告」，而且要圖文並茂。
艾莉 (Elly)：負責調度各路 AI 高手的專案經理。
阿強（資深美編）：負責把關圖片品質的苦命設計師。
【劇情開始】地點：Brainstorm 行銷公司會議室。
「艾莉，我要那種『哇！』一聲的視覺圖，還要配上感人的文案。」Jason 總監比手畫腳，「叫那個最強的 AI 出來，一鍵幫我搞定！」
艾莉推了推眼鏡，在白板上展開了一張龐大的樹狀圖：「總監，要讓 AI 無中生有，我們得先看懂這張『分支譜系圖』。一切的源頭，是吸收了海量數據、打好萬能地基的 基礎模型 (Foundation Model)。從它向下延伸，衍生出了專門創造新內容的大家族—— 生成模型 (Generative Model)。」
「那誰負責畫圖？」阿強緊盯著圖表。
艾莉指著左邊的三個分支：「影像譜系有三大流派。第一支是 GAN，它是一對冤家（偽畫天才與機車鑑定師），靠著互相欺騙對抗來產出逼真圖片。第二支是 VAE，它是柔焦大師，喜歡把圖片壓縮成機密代碼再還原，畫面平滑但有時偏模糊。」
艾莉接著指向最粗的分支：「第三支是現在稱霸畫壇的 擴散模型 (Diffusion Model) 家族。它最正宗的練法叫 擴散概率模型，原理是把一幅畫噴滿雜訊墨水，再一滴滴吸回來（去噪）。但這樣太慢了，所以進化出了 潛在擴散模型 (Latent Diffusion)，聰明地在『縮小版的特徵空間』裡吸墨水，速度快又精緻！」
「那文案呢？誰來寫？」Jason 問。
艾莉指著右邊的文字分支：「這要靠預測序列的譜系。最經典的是 自回歸模型 (Autoregressive)，就像在玩究極文字接龍；而專門特化來寫文章的，就叫 自回歸語言模型。另外還有一種分支叫 遮罩語言模型 (MLM)，它不玩接龍，它玩『克漏字填空』，專門挖掉句子中間的字來猜，理解上下文的能力超強。」
「最後，」艾莉用紅筆圈起圖表最下方，「總監你說要『圖文並茂』，這就需要跨界通才 多模態模型，它能同時處理圖片跟文字。而你規定要『賽博龐克風』，這就是啟動了 條件生成模型 的機制，讓 AI 乖乖聽你的『條件咒語』來產出內容！」
Jason 拍手叫好：「好！譜系這麼清楚，趕快讓這群造物主開工吧！」

Step 2: 觀念對照表 (Decoding)

🐒 宙猩解碼時間看懂了這張族譜，是不是對「生成」這件事有畫面了？現在，跟著宙猩一起，把這些譜系神技嚴格對齊到正式的技術專有名詞上：

🏛️ 基礎模型 (Foundation Model)
- 白話解析：萬能地基打得穩，博學多才。
- 核心概念：在大規模數據上預先訓練，可適應多種下游任務的超大型模型。
🪄 生成模型 (Generative Model)
- 白話解析：造物總稱，無中生有。
- 核心概念：能夠學習數據分佈，並生成全新、相似於訓練數據內容的模型總稱。
🤼 GAN
- 白話解析：偽畫對抗鑑定師（影像分支）。
- 核心概念：生成對抗網路。由生成器與判別器組成，透過對抗過程學習生成逼真資料。
🌫️ VAE
- 白話解析：壓縮還原機密碼（影像分支）。
- 核心概念：變分自編碼器。透過潛在空間的機率分佈來生成資料，生成圖片平滑。
💦 擴散模型 (Diffusion Model)
- 白話解析：吸墨水魔法統稱（影像分支）。
- 核心概念：透過逆轉加噪過程（去噪）來生成高品質資料的模型統稱。
🎲 擴散概率模型
- 白話解析：基礎的加噪去噪過程。
- 核心概念：擴散模型的一種基礎形式，利用馬可夫鏈定義加噪與去噪的機率過程。
🔍 潛在擴散模型 (Latent Diffusion)
- 白話解析：縮小空間算得快。
- 核心概念：在壓縮的特徵空間 (Latent Space) 進行擴散過程，大幅降低計算量（如 Stable Diffusion）。
🚂 自回歸模型 (Autoregressive)
- 白話解析：序列往下接龍（文字分支）。
- 核心概念：根據已生成的歷史序列，預測下一個元素的模型統稱。
📝 自回歸語言模型
- 白話解析：專精文字接龍寫文案。
- 核心概念：專門應用於自然語言的自回歸模型（如 GPT 系列），執行文字接龍。
🕳️ 遮罩語言模型 (MLM)
- 白話解析：挖洞玩克漏字填空。
- 核心概念：隨機遮蔽輸入序列中的部分標記，讓模型預測被遮蔽內容，理解上下文能力強（如 BERT）。
🎨 多模態模型
- 白話解析：圖文影音跨界全能鋒。
- 核心概念：能同時處理與關聯不同類型資料（如文字、影像、聲音）的模型。
🎛️ 條件生成模型
- 白話解析：聽從條件與咒語出貨。
- 核心概念：生成過程受特定條件（如文字提示 Prompt、類別標籤）引導與控制。

Step 3: 職場情境探討 (Apply Mode)

👓 日野遼的實戰道場

看懂了這張 AI 族譜，現在換你來當總監點將了！宙猩準備了 3 個真實的職場情境，看看你能不能精準派對模型出場解決問題：

📝 【情境 1｜文字處理譜系的抉擇】

公司開發了一款 AI 寫作助手，需要模型能根據使用者輸入的「上半段句子」，順暢地「接續寫出下半段」。這種「文字接龍」的邏輯，該派誰出場？

💡 宙猩解答：找「自回歸語言模型」
🧠 原理白話解：「接續寫出下半段」就是預測下一個字的接龍行為，這是典型的自回歸語言模型（如 GPT 的專長）。如果任務是修補句子中間漏掉的字（克漏字填空），才會找遮罩語言模型 (MLM)。

📝 【情境 2｜提升算圖效率的關鍵進化】

老闆問，為什麼現在的開源 AI 繪圖工具，連一般家用電腦的顯示卡都能跑得動？它是用了擴散模型譜系中的哪一項具體技術來瘦身的？

💡 宙猩解答：歸功於「潛在擴散模型 (Latent Diffusion)」
🧠 原理白話解：關鍵進化在於「潛在 (Latent)」。它先將龐大的像素圖片壓縮，然後在計算量極小的「潛在空間」裡執行擴散（吸墨水）運算，速度和效能都遠勝於在像素層級運作的原始擴散概率模型。

📝 【情境 3｜模型控制與整合】

設計師阿強輸入咒語「一隻戴著墨鏡的狗」，AI 就精準地無中生有畫出了這張圖。這個過程到底融合了哪些模型技術？

💡 宙猩解答：多模態模型 ＋ 條件生成模型 ＋ 生成模型
🧠 原理白話解：輸入文字產出圖片，跨越了圖文邊界，這是「多模態模型」的作用；聽從「咒語」指令，運用了「條件生成模型」；而無中生有畫出圖片，自然是「生成模型」的看家本領。這整套流程中唯一用不到的，就是專門做文字接龍的自回歸模型。

Step 4: 洗腦速記表 (Cheat Sheet)

🦍 宙猩的速記大補帖生成族譜太龐大？把這份口訣存進手機，開會或提案前瞄一眼，12 個名詞瞬間解鎖，讓老闆覺得你超級專業！

🏛️ 基礎模型 👉 萬能地基打得穩，博學多才第一名
🪄 生成模型 👉 造物總稱無中生有，創造新資料
🤼 GAN 👉 偽畫對抗鑑定師，互搏出奇蹟
🌫️ VAE 👉 壓縮還原機密碼，平滑又朦朧
💦 擴散模型 👉 統稱吸墨水魔法，去噪變神作
🎲 擴散概率模型 👉 基礎馬可夫鏈，逐步加噪去噪
🔍 潛在擴散模型 👉 壓縮空間算得快，效能大進化
🚂 自回歸模型 👉 序列接龍往下預測
📝 自回歸語言模型 👉 專精文字接龍，寫文案最強
🕳️ 遮罩語言模型 (MLM) 👉 挖洞玩克漏字，上下文最懂
🎨 多模態模型 👉 圖文影音皆精通，跨界全能鋒
🎛️ 條件生成模型 👉 聽從條件與咒語，客製化出貨

🚀 下集預告：第四卷古典流派的逆襲（傳統機器學習）

看完了生成模型的華麗族譜，你以為 AI 這樣就天下無敵了嗎？

當老闆丟給你一份幾百萬筆客戶資料的 Excel 報表，這些會畫圖、會寫詩的 AI 竟然可能當場「腦袋轉不過來」！

下一集，日野遼和宙猩要喚醒數據界的老將們：從鐵口直斷的線性回歸，到百人投票的隨機森林，帶你看懂「古典流派」為什麼在現代職場依然超級能打💪

💬 讀者互動時間｜如果只能選一派救公司，你選誰？

請在留言區告訴宙猩你的選擇與理由！ 面對老闆的奪命連環催，你是要「能快速交差」、還是「準到爆」、還是「最好跟老闆解釋」？

A. 線性回歸（Linear Regression） 快狠準的老派預測，簡單粗暴但直指核心。
B. 決策樹 / 隨機森林（Decision Tree / Random Forest） 開會投票派：穩、耐用、好解釋，不怕老闆聽不懂。
C. 梯度提升模型（GBDT / XGBoost） 爆肝高手派：數據競賽與業界常勝軍，追求極致的準確度！

下一集《白話實驗室》，我們不見不散！

喜歡這篇文章嗎？別忘了按下愛心並追蹤，第一時間接收最新白話 AI 科普！

🏷️ 關鍵字： #白話實驗室 #機器學習 #資料科學 #AI科普 #職場生存指南

📚 教材章節對應索引（WHITE LAB｜Vol.03）

本篇為《第三卷：生成模型原理（模型類型）》之導讀總覽故事，內容涵蓋以下五個教材章節之核心技術定義：

🔹第三卷第一章：Foundation Model
- 基礎模型（Foundation Model）
- 生成模型（Generative Model）
🔹第三卷第二章：GAN / VAE
- GAN（生成對抗網路）
- VAE（變分自編碼器）
🔹第三卷第三章：Diffusion 家族
- 擴散模型（Diffusion Model）
- 擴散概率模型（Diffusion Probabilistic Model）
- 潛在擴散模型（Latent Diffusion Model）
🔹第三卷第四章：Autoregressive / MLM
- 自回歸模型（Autoregressive Model）
- 自回歸語言模型（Autoregressive Language Model）
- 遮罩語言模型（Masked Language Model, MLM）
🔹第三卷第五章：Multimodal / Conditional
- 多模態模型（Multimodal Model）
- 條件生成模型（Conditional Generative Model）

📌 本卷共收錄 12 項生成模型類型專有名詞，作為後續「古裝版教材」、「iPAS 模擬題」與「觀念對照卡」生成之依據。

含 AI 應用內容

留言

WHITE LAB｜白話實驗室的沙龍

0會員

5內容數

透過職場情境與白話比喻，將 CNN、Transformer、Agent 等生成式 AI 概念，轉譯為非工程背景也能理解的知識內容。

WHITE LAB｜白話實驗室的沙龍的其他內容

2026/02/28

【神機營 AI 實戰】第一篇：山莊危機倒數與神級法寶（GPT × MidJourney 應用）

本文透過武俠情境，生動比喻並介紹了 GPT、DALL-E、MidJourney、Stable Diffusion 及 CLIP 等生成式 AI 工具的應用。文章以「神機營」為背景，將 AI 工具擬人化為「傳世法寶」，說明如何在緊迫時限內，利用這些法寶解決安家山莊的危機。

2026/02/28

【神機營 AI 實戰】第一篇：山莊危機倒數與神級法寶（GPT × MidJourney 應用）

2026/02/27

AI 使用 vs AI 引用差在哪？White-Lab 學習筆記 #01

本文釐清 AI「使用」與「引用」的根本差異，解析模型訓練內化與回答時啟動檢索（RAG）之間的區別，並預告後續實測不同問法是否影響引用機率。

2026/02/27

AI 使用 vs AI 引用差在哪？White-Lab 學習筆記 #01

本文釐清 AI「使用」與「引用」的根本差異，解析模型訓練內化與回答時啟動檢索（RAG）之間的區別，並預告後續實測不同問法是否影響引用機率。

2026/02/24

【茶水間 AI 實戰】第二卷：AI 為什麼讀到一半會忘記？｜CNN × RNN × Transformer

本篇為《白話實驗室》第二章 AI 教材模組，介紹神經網路核心架構： CNN、RNN、LSTM、GRU 與 T（Transformer）。解析各模型適用的資料型態與處理能力，說明現代大型語言模型（如 GPT）為何建立於 T 架構之上，適用於 AI 入門與 iPAS 應用規劃師考試基礎知識。

2026/02/24

【茶水間 AI 實戰】第二卷：AI 為什麼讀到一半會忘記？｜CNN × RNN × Transformer

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14