你的社群媒體最近是不是也被各種吉卜力風格的圖片洗版了呢?上個月,OpenAI 為 ChatGPT 更新了創作圖像功能,立刻引爆了全球的創作熱潮。打開社群媒體全部都是各種吉卜力,連 OpenAI 的 Sam Altman 也把他的社群媒體頭像換成吉卜力風格的圖像。
這個功能上線一小時內,ChatGPT 就新增了 100 萬用戶,每週活躍用戶人數也突破了 1.5 億大關,創下歷史新高!你有沒有想過,AI 的創作圖像功能之前就存在了,並不是現在才出現的。那為什麼這次會引起這麼大的討論,變成像是一種全民運動一樣呢?
今天我想要從多個面向,和你一起來探討,到底發生了什麼事情?我們現在其實是在見證什麼呢?這些 AI 技術的突破,和我這個全職媽媽有什麼關係?它又為我們帶來了哪些可能性呢?OpenAI 的技術突破
首先,我們先來討論一下 OpenAI 這次在創作圖像功能上面技術實力的突破。如果你這幾天有在玩創作圖像的功能的話,你就會感覺到它這次圖像生成出來的真實感、細膩度,還有各種風格的轉換,都是大大的提升。
這次 GPT-4o 有一個非常大的進步,就是解決了之前 AI 繪圖的一大痛點——在「文字呈現」的方面,現在它可以在圖像當中正確地生成文字了。英文和日文通常都能夠正確地生成,但在繁體中文的生成方面,當一張圖裡面字數一多,還是會有一些奇怪的狀況產生。不過整體而言,生成能力已經比過去提升了很多。這也代表,接下來我們可以直接設計出帶有文字的海報、內容完整的知識圖表等等,開始出現真正的商業應用了。
多模態融合能力
而這次真正帶來革命性的更新是它的「多模態融合能力」。
以往 AI 的文字生成和圖片生成,是使用不同的模型。像是我們平常在用的 ChatGPT,它是基於 Transformer 模型的語言模型;而像 Midjourney、DALL-E、Stable Diffusion 這些圖像生成工具,則是使用擴散模型(Diffusion Models)。
擴散模型在生成圖片的過程,其實就是把雜訊一步步還原的過程。所以,當你把一張你自己的照片輸入給它,再叫它幫你生成一張吉卜力風格的圖像,它是沒有辦法真正理解你給它的那張照片的樣貌。它只是根據你輸入的「吉卜力」這個關鍵字,從資料庫中調用它所理解的風格元素,猜測你可能想要的樣子。但現在 GPT-4o 已經能做到真正的「多模態輸入」與「多模態輸出」。
你把自己的照片丟給它,再請它幫你生成吉卜力風格的圖像,它是真的能理解你照片裡面人物的髮色、臉型、特徵,並且把這些資訊作為原始素材,再根據你的文字描述去轉換風格,生成出有你自己特徵的吉卜力圖片。這種多模態融合的能力非常關鍵,能讓我們做出更多應用。
像我以前要把小漢堡的作文變成漫畫時,我要先把作文拍照,再請 ChatGPT 用 OCR 技術擷取出圖片裡面的文字,再叫他根據這些文字幫我生成漫畫。而這個過程當中會用到不同的模型,也會喪失了原本圖片的特徵。但現在,我只要把照片直接傳給 ChatGPT,再搭配一段文字指令,就可以直接生成四格漫畫。它可以同時理解圖片和文字,生成出我要的故事情節。

另外一個例子是,我上傳了一張小漢堡和小籠包的照片,跟 ChatGPT 說明時間地點,請它幫我生成一張慶生會的邀請卡,結果它可以正確的放入我指定的關鍵文字,圖片裡的髮色、衣服、場景也都是照著原本的照片轉換的,它可以一次同時處理文字和圖片不同模態的輸入。

網路上也可以找到更多應用的例子,像是拍攝一張家裡的照片,請 AI 幫你改成不同風格的裝潢,或是上傳一張模特兒的照片和一張產品圖,再請 AI 幫妳產生圖片,讓模特兒手上拿著這個產品,接下來也會有越來越多有創意的應用。
角色一致性提升
再來就是「角色一致性」的進步。以前我們很難讓 AI 生成的多張圖片保持角色一致。我以前的做法是請 AI 告訴我圖片的 seed 值,再用相同的 seed 值生成下一張圖,風格會比較接近,但還是很難做到完全一致。
而這次只要是在同一個對話框裡面,ChatGPT 就能維持風格和角色的一致性,也可以只針對局部修改。例如這張,我只把小狗頭上的粉紅色蝴蝶結改成藍色,其他部分都不變。這會讓很多應用實際落地,像是用來創作兒童繪本,主角就不會好像一直變來變去的。


使用者體驗提升
再來我們來講講「使用者體驗」。這波風潮的引爆,並不只是技術上的提升,而是「使用者體驗」的進化。
以往用ChatGPT產生圖片品質並沒有很好,如果是使用其他的 AI 繪圖工具,往往要看得懂英文介面、要學 prompt 語法、還要理解各種風格模型,對一般人來說門檻很高。但現在,你只需要用中文,我們的自然語言和 ChatGPT 講話,它就會完成你的指令。不需要額外下載軟體,也不需要切換平台,在一個介面裡面就可以邊聊天邊完成圖像創作。
這次 OpenAI 直接把圖像功能下放到免費版本,雖然有每天的張數限制,但這大幅降低了體驗門檻,讓每個人都可以參與,才變成了一場全民運動。
創作權力的轉移
那這波 AI 圖像創作的風潮,背後真正的意義是什麼呢?代表著,我們正在「見證一場創作權力的轉移」。過去創作是有門檻的——你需要專業知識、設備和技能。現在,只要你有想法,會說故事,就能創作。創作的核心從「技術能力」轉移到「想像力與表達力」。這是一場文化的變革,我們每個人都可以是主角,都可以建立自己的視覺形象,再把它分享到社群,產生社交連結。
我自己最近創作了四格漫畫、知識圖表、英文單字卡、生日邀請卡、食譜、Line 貼圖、公仔等圖像。

而網路上最多人創作的還是吉卜力風格的圖案,因為吉卜力是很多人小時候共同的回憶,也是一種「情感連結」。當你看到自己進入到吉卜力的世界裡,會覺得很熟悉,也會因為大家都在參與,而產生一種「想一起參加」的動力。這不只是創作,而是一場社群文化的認同。
所以我認為,這次 OpenAI 真正的突破,不只在於技術,而是在於——他們改變了人們的使用習慣,建立了一種新的文化。
「我是一個會用 AI 創作的人」,變成了一種身份認同,讓更多人想嘗試看看。未來,我們可能會看到更多 AI 和人類的協作模式,像是:
AI 草圖 + 人類精修師
AI 風格顧問
AI 說書人 + 媽媽圖像創作
總結一下,這次風潮之所以會爆紅,關鍵在於三點:
1️⃣ 技術突破:GPT-4o 能同時理解圖片和文字、生成高品質圖像,還能維持角色一致性。
2️⃣ 操作超簡單:完全用自然語言操作,不用學提示詞、不用懂設計,人人都能上手。
3️⃣ 情感共鳴:吉卜力風格勾起童年記憶,加上社群推播,形成全民參與的創作浪潮。
接下來,我也會持續分享更多 AI 實際應用在媽媽生活當中的技巧。和我一起加入學習 AI 的行列吧!
⭐ 喜歡我的分享,請幫我按愛心,對我會是很大的鼓勵 ❤️
⭐ 訂閱 YT 頻道:Vicky Mommy 玲玲 😍
⭐ 點擊領取《全職媽媽幸福力提升指南》
⭐ 加入Line社群 《媽咪賦能共學團》一起成長不孤單 ❤️
合作邀約信箱 :vickytsai927@gmail.com