【茶水間 AI 實戰】第一卷：生成式 AI 有哪些工具？｜GPT×MidJourney×StableDiffusion

WHITE LAB｜白話實驗室

2026/02/28 更新2026/02/23 發佈閱讀 8 分鐘

白話實驗室 EP.01｜AI 如何在 1 小時內拯救行銷提案？

如果老闆突然要你在 1 小時內，交出一份「文案＋三張主視覺」的完整提案—— 你會怎麼做？

在這一篇《白話實驗室》中，我們將潛入一間數位行銷公司的茶水間，看看 GPT、DALL·E、MidJourney、 Stable Diffusion，甚至 CLIP，究竟是怎麼在截稿死線前，拯救一整個行銷部門的。

📖 第一章：名模生死鬥 (傳說級模型)

週五下午四點。

Brainstorm 數位行銷公司的茶水間裡，行銷部正面臨一場史無前例的危機。

(畫面轉場)

「歡迎來到白話實驗室。」一道熟悉的聲音從你耳邊響起。

「我是日野遼。」

如果你現在正坐在辦公室裡，看著老闆剛丟過來的提案需求，心裡只剩下一句話：「這一小時我到底要怎麼活下去？」

那你今天，來對地方了。

別擔心，我們會和實驗室的「宙猩」一起，把這些看似嚇人的生成式 AI 名模，一個一個請上節目，讓你看看它們真正的工作能力。

Step 1: 職場情境劇 (Story Mode)

🎬 劇名：《行銷部的危機倒數與神級外援》

【主要角色】

Jason（行銷總監 / 慣老闆）： 只看結果，口頭禪是「我不管過程，下班前給我圖文並茂的提案」。
小偉（苦命文案）： 擅長寫作，但被壓榨到靈感枯竭。
阿強（資深美編）： 電繪功力深厚，但畫一張圖要三天。
艾莉（科技小天才 / 實習生）： 偷偷用 AI 工具加速的神祕新人。

【劇情開始】 週五下午四點，Jason 衝進辦公室大吼：「客戶臨時要一個『賽博龐克風』的珍珠奶茶新品提案，除了文案，還要三張不同風格的主視覺，五點前給我！」

小偉和阿強聽完臉都綠了。阿強崩潰：「一小時？我連圖層都還沒開好！」

這時，實習生艾莉默默推了推眼鏡：「別怕，我把我的『數位神級外援團』叫出來。」

艾莉打開電腦，指著螢幕說：「首先，文案交給這位 GPT 大哥。他肚子裡墨水最多，我只要給他關鍵字，他能瞬間寫出十種不同語氣的宣傳稿，這就是我們最強的『語言大師』。」

接著，艾莉轉向阿強：「強哥，圖不用重畫。這位 DALL·E 是個聽話的畫師，你叫他畫什麼他就畫什麼；如果你要那種藝術感很強、像在逛畫廊的風格，就交給 MidJourney，這傢伙美感超好。如果你怕軟體太貴或想在自己電腦上跑圖，這位 Stable Diffusion 是開源界的英雄，雖然要調教一下，但 CP 值最高！」

最後，Jason 走過來懷疑地看著螢幕：「這些圖跟文案搭得起來嗎？不會牛頭不對馬嘴吧？」

艾莉笑著說：「放心，總監。我有請 CLIP 來當『品管經理』。他同時看得懂圖片和文字，他會負責確認這張圖是不是真的符合『賽博龐克珍奶』的描述，幫我們做圖文配對的最終審查！」

五點整，提案準時寄出。Jason 驚呆了，阿強和小偉則跪在艾莉的電腦前膜拜。

Step 2: 觀念對照表 (Decoding)

🐒 宙猩解碼時間 看完成功準時下班的故事，是不是覺得這些 AI 名詞也沒那麼遙遠？

現在，跟著宙猩一起，把這些「外援」跟講義裡的技術名詞對起來：

🗣️ GPT 系列（語言大師） Generative Pre-trained Transformer

專攻「文字生成」與理解。
最強大的語言模型家族，主要處理對話、摘要、內容撰寫等任務。

🎨 DALL·E / MidJourney（文生圖畫師）

兩者皆為強大的「文生圖」模型。
DALL·E 由 OpenAI 開發，主打聽話精準。
MidJourney 以藝術風格強烈、細節精美著稱。

🖥️ Stable Diffusion（開源界英雄）

開源（Open Source）的圖像生成模型。
特點是輕量高效，使用者可部署於本地端執行，降低對雲端服務的依賴。

🧩 CLIP（圖文品管經理）

Contrastive Language-Image Pre-training
它的特異功能是「跨界」，可同時理解圖片與文字之間的關聯性。
⚠️ 考試陷阱提醒： CLIP 本身為「判別模型」，非生成模型！常用於圖文匹配與輔助生成模型訓練。

Step 3: 實戰模擬題 (Drill)

👓 日野遼的實戰道場 好了，在進入下一段之前，我們先來測試一下，你是否已經認出這些 AI 名模了。宙猩特別準備了 3 題 iPAS 必考模擬題，測試一下你是否已經能精準認出這些「AI 名模」：

📝 【考題 1】內部部署與開源考點 在生成式 AI 的應用中，如果企業希望部署一套「圖像生成系統」在公司內部的伺服器上（Local），以避免機密數據上傳到外部雲端，且希望使用開源模型以節省授權費，下列哪一個模型最合適？ (A) GPT-4 (B) MidJourney (C) Stable Diffusion (D) DALL·E 3

💡 正確答案：(C)
🧠 宙猩解析： (C) Stable Diffusion 是著名的開源圖像生成模型，特點是高效且支援在本地端（Local）運行，完美符合「內部部署」與「開源」的需求。(A) 走 API 雲端服務；(B) 與 (D) 目前主要透過官方平台提供閉源服務，無法直接免費部署在本地端。

📝 【考題 2】多模態與 CLIP 陷阱題 OpenAI 所開發的 CLIP 模型，其核心架構的主要功能特色為何？ (A) 專門用於生成高畫質的 3D 模型 (B) 能夠同時理解「圖像」與「文字」，並計算兩者之間的關聯性 (C) 僅能處理純文字的翻譯工作 (D) 是目前最強大的語音辨識模型

💡 正確答案：(B)
🧠 宙猩解析： (B) 正確。CLIP 的核心能力就是將圖像和文字映射到同一個特徵空間，讓電腦理解「這張圖」是否符合「這段字」，是多模態（Multimodal）的重要基礎。(再次提醒：CLIP 是判別模型，不是生成模型喔！)

📝 【考題 3】模型開發商與功能對應 下列關於生成式 AI 知名模型的敘述，何者錯誤？ (A) GPT 系列主要屬於大型語言模型 (LLM)，擅長處理文本任務 (B) MidJourney 以其生成圖像的藝術性與細節著稱 (C) DALL·E 是 Google 開發的語音生成模型 (D) CLIP 經常被用於圖像搜尋或輔助圖像生成模型的訓練