ChatGPT 外，我用這方法搞定 AI 系列圖片生成！

2025/04/04 更新2025/04/04 發佈閱讀 8 分鐘

我想從上週以來，各位讀者的社群都被 ChatGPT 最新的生圖模型洗版了吧，那鋪天蓋地的吉卜力風格圖片，是否也讓你躍躍欲試？但當你興奮地想用它為專案製作一系列主角相同、動作各異的圖片時，是否發現——生成的結果雖然不錯，但是由於服務的爆火，導致生圖的限制越來越多，耗費時間越來越長，讓你耗費大量時間卻得不到滿意的素材？如果你也遇到了這個「系列圖片」生成的瓶頸，那麼這篇文章或許能提供一個 ChatGPT 之外的有效解方。

這個生圖模型為何能紅？又為何讓人卡關？

ChatGPT 更新的這個「自迴歸模型」生圖功能，無疑是近期 AI 界的焦點。相較於先前主流的「擴散模型」（如 Stable Diffusion、Midjourney），它在理解自然語言、直接生成多樣化內容上似乎更勝一籌。理論上，生成系列圖片——比如讓同一個角色擺出不同姿勢——應該是它的強項。很多人也確實用它快速製作了 LINE 貼圖等創意內容，這也是它爆紅的主因。

然而，熱潮的背後是現實的骨感。首先是使用體驗的下滑：生成速度變慢、額度限制變多、有時甚至「降智」般地無法理解指令。更關鍵的是，在我嘗試將它用於遊戲專案的素材製作時，發現了更深層的問題。

我近期需要為一款遊戲化健身 APP 製作一系列由同一位教練演示不同動作的圖片。起初我寄望於 ChatGPT，但實際使用後發現，即使是新模型，在要求嚴格的人物一致性時，表現仍不穩定。有時人物的臉部細節會模糊不清，五官比例偶爾失調，或是整體風格難以完美統一，總讓我覺得「差點意思」，不夠精美。

可以明顯的看出兩張圖的人物長相差異

同時，為了製作一款像素風桌面小遊戲的 Sprite Sheet（連續動畫圖），我也用 ChatGPT 進行了測試。雖然單張效果驚豔，但連續生成三張就常需等待冷卻，有時一張圖甚至要花 2-3 分鐘，這對於需要大量且快速產出素材的開發流程來說，效率實在太低。

小圖看上去很好，但放大後就有明顯的臉部模糊問題

ChatGPT 之外的選擇：ImageFX 的驚喜與挑戰

在 ChatGPT 的效率與美感瓶頸下，我轉向了 Google 的 ImageFX（目前仍需申請試用）。我之前文章的一些配圖就依靠它，其生成單張圖片的美感和質感往往更符合我的期待，速度也較快（通常一分鐘內生成四張供選擇）。

ImageFX不用太精細的提示詞，也能產出很好的圖片

但 ImageFX 同樣基於「擴散模型」，這意味著它在生成系列圖片時，「人物一致性」的老問題依然存在。常常是第一張圖令人滿意，但當我試圖讓同一個角色換個動作時，角色的服裝細節、髮型，甚至臉部特徵都可能悄悄「飄移」，一致性難以保證。

用同一組提示詞在ImageFX產生的圖片

Aha Moment 與步驟優化

就在我快要放棄，準備回頭硬啃 Stable Diffusion 或接受 ChatGPT 的不完美時，我意外發現了一個結合 Google 工具鏈的方法，有效地解決了 ImageFX 的一致性問題！ 這個發現讓我的素材製作流程豁然開朗。

那麼，我是如何用 ImageFX 製作一系列高度一致的圖片呢？

起點：獲取基礎人物
1. 在 ImageFX 或 Gemini (Flash 2.0 模型) 中，使用簡單提示詞生成一張你大致滿意的人物圖（例如：「一位穿著運動服的亞洲女性健身教練，笑容燦爛，背景為明亮的健身房」）。
關鍵一步：讓 Gemini Pro 優化提示詞
- 將步驟 1 生成的滿意圖片或你對理想人物的詳細描述，提供給 Gemini 2.5 Pro (或其他強大的語言模型)。
- 要求它：「請根據這張圖片/我的描述，為 Google 的 Imagen 3 模型 (ImageFX/Flash 2.0 使用的模型) 生成一段詳細的、結構化的英文提示詞，以確保能穩定重現這個人物的樣貌特徵。」
- [為何要這樣做？] Gemini Pro 通常能生成比我們隨手寫的更精確、更符合 AI 模型偏好的提示詞，包含臉部特徵、服裝細節、光線、風格等，這是提高後續一致性的基礎。
生成基準圖：
1. 將 Gemini Pro 生成的詳細提示詞貼回 ImageFX 或 Flash 2.0，生成圖片。微調提示詞（或讓 Gemini Pro 再次優化），直到獲得一張你非常滿意的「基準人物圖」。
生成系列動作 (核心技巧)：
- 使用 ImageFX：
- 在生成滿意的基準圖後，找到並「鎖定 (Lock)」該圖片的「種子 (Seed)」。[為何鎖定 Seed 有效？] Seed 控制了生成過程中的隨機性。鎖定它，意味著 AI 在生成新圖時會基於與基準圖非常相似的初始噪點，更容易保持人物和風格的一致性。
- 現在，在原提示詞後面加入你想要的動作描述（例如：", doing jumping jacks" 或 ", lifting dumbbells"），重新生成。你會發現人物一致性大大提高！主要需要調整的可能是動作的自然度和準確性。
- 使用 Gemini (Flash 2.0)：
- 好消息是：根據我的測試，Flash 2.0 對話模式下的 Imagen 3 似乎能更好地理解上下文。
- 在生成滿意的基準圖後，直接在對話中繼續要求：「很好，現在讓她做開合跳 (Now have her do jumping jacks)」。Flash 2.0 通常能較好地保持人物一致性，甚至對動作的理解有時優於 ImageFX。
- [我的經驗]：同樣是「開合跳」這個動作，我在 ImageFX 中反覆調整提示詞並鎖定 Seed，最好也只得到差強人意的結果；但在 Flash 2.0 中直接要求，第二次生成就得到了一張動作合理、人物一致的滿意圖片。
迭代優化：
- 如果生成的動作不理想，或一致性仍有偏差，可以嘗試：
- 微調動作描述。回到步驟 2，讓 Gemini Pro 針對特定動作再提供更精確的提示詞片段。在 ImageFX 中嘗試不同的 Seed，有時會有意外收穫。

透過上述流程成功用ImageFX製作了一系列圖片，不過未固定場景

透過這個流程，我終於成功生成了所需的 15 張運動示範圖！不僅人物保持了高度一致（臉部、髮型、服裝基本不變），省去了大量手動修改或反覆生成的挫敗感，而且在真人照片風格上，Imagen 3 的質感和細節表現甚至超出了我最初用 ChatGPT 時的預期！後續我將此流程應用於像素 Sprite Sheet 的生成，同樣取得了非常好的效果。

美女教練測試連結：https://g.co/gemini/share/e0a00eb307ae

2D像素Sprite Sheet測試：https://g.co/gemini/share/1b4b9f5f04ee

正是這樣的探索與突破，促使我寫下這篇文章，當然，我自己在測試的過程中，也懷疑過，Google 應該有為了因應 ChatGPT，偷偷的提升了 Imagen 3 的能力但沒有明說，畢竟在之前也不是沒人做過我這樣的嘗試，但是生成效果都沒有那麼好，5月下旬就是今年的 Google I/O，到時候Google應該會丟出許多重磅AI產品，非常令我期待，畢竟目前最新的 Gemini 2.5 Pro 真的上帶給我最多AI幸福感的模型。

用 AI 做些什麼，真的很有意思！

這次解決圖片生成難題的經驗，也讓我更深刻體會到「用 AI 做些什麼」的樂趣與力量。這和我近期投入「Vibe Coding」（基本上是用自然語言和 AI 一起寫程式）的體驗不謀而合：AI 正在成為強大的槓桿，讓我們這些非技術背景的人也能跨越技能門檻，將創意和想法付諸實踐。

無論是克服圖片一致性的挑戰，還是透過 Vibe Coding 快速搭建 APP 原型，核心都是一種主動運用 AI 來解決問題、創造價值的思維。有了這樣的體驗之後，我真心認為，所有從事企劃、行銷、PM、營運，任何需要將想法落地、需要產出內容或產品原型的人，都值得去探索如何將 AI 融入自己的工作流。

如果你也是一位需要產出視覺素材的行銷人員、內容創作者、產品經理，或是任何卡在「想法很多，執行很難」階段的實踐者，希望我這次的 AI 圖片生成經驗分享，能為你帶來一些啟發與實用的幫助。後續我也會繼續分享我使用 AI（包含 Vibe Coding）開發遊戲化健身 APP 的心得與思考，敬請期待！

留言

TeaWtihRoland

2.4K會員

79內容數

藉過往將近 10 年遊走於兩岸，並先後任職於各間上海知名遊戲公司的經驗，分享一系列行銷文章，也將不定時撰寫一些業界觀察、八卦雜談、產業趣聞等內容，歡迎關注我的文章，若有問題想諮詢也歡迎私訊，我將不吝解答

TeaWtihRoland的其他內容

2025/03/30

《人中之龍8》X「三商巧福」是一個合格的異業合作嗎？

這週在飛鳥涼的百億遊戲營運/行銷課程群中聊天，聊到了當前Steam遊戲的社區與評論區經營，接著就又聊到了怎麼有效提升玩家把遊戲加入願望清單的數字，而這就讓我想到了上個月看到的《人中之龍8》與「三商巧福」進行的異業合作。把《人中之龍8》加入願望清單就得燙青菜這個內容算是我覺得這檔合作的主要亮點

2025/03/30

《人中之龍8》X「三商巧福」是一個合格的異業合作嗎？

2025/03/22

向大陸遊戲公司提案的那些事

在競爭激烈的遊戲市場中，台灣遊戲行銷公司（乙方）若想拓展業務版圖，與大陸遊戲公司（甲方）合作無疑是一條重要的途徑。然而，許多台灣乙方在向大陸甲方提案時，常常遭遇挫折，精心準備的提案往往石沉大海。

2025/03/22

向大陸遊戲公司提案的那些事

2025/03/16

我的 AI 焦慮症：一個遊戲行銷人的自白與實踐

AI 時代，你焦慮了嗎？我想最近這段時間，應該是許多人 AI 焦慮最深的一段時間。天天看著各種工具推陳出新，一下是 DeepSeek 橫空出世，轉頭就是 OpenAI 推出 ChatGPT 的新功能，再來又是各種自動化工具，什麼 n8n、Make 等等。然後，看著最與世無爭的 Claude 也推

2025/03/16

我的 AI 焦慮症：一個遊戲行銷人的自白與實踐

#AI 的其他內容

2026 年 5 月 iPAS 考試倒數一個月🔥vocus 助你一臂之力，購買指定備考數位商品抽訂單全免 🎯

小P趨勢投資

算力的盡頭是電力！009819 小P量化交易者眼中的AI基建雙引擎致勝邏輯

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

愛的正反合的沙龍

#130提問：為什麼用ChatGPT有種殊勝感？

人工智慧（AI）時代的到來，並不代表要取代人類的工作，而是要幫忙人類釋放雙手，集中在內心的成長上。透過閱讀阿卡西和運用AI工具，可以為個人的成長增添新的力量。

#閱讀#ChatGPT#神奇寶貝

2024/01/24

愛的正反合的沙龍

#130提問：為什麼用ChatGPT有種殊勝感？

#閱讀#ChatGPT#神奇寶貝

2024/01/24

D&Y熊繪生的沙龍

心情繪本｜ChatGPT ｜DALL.E ｜[晶智紀元：AI深度學習的奇蹟]

在晶狀智慧的時代，人類與AI共舞，共同建構更先進、更智能的未來。這是一場革命，一場改變人類命運的奇蹟，讓我們共同見證這個智慧的新紀元。

#奇蹟#學習#人類

2024/03/05

D&Y熊繪生的沙龍

心情繪本｜ChatGPT ｜DALL.E ｜[晶智紀元：AI深度學習的奇蹟]

在晶狀智慧的時代，人類與AI共舞，共同建構更先進、更智能的未來。這是一場革命，一場改變人類命運的奇蹟，讓我們共同見證這個智慧的新紀元。

#奇蹟#學習#人類

2024/03/05

Atai的沙龍

開始使用ChatGPT抄寫勵志英文 D3

今天又發現ChatGPT的一些缺點，使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看，它就能更準確的回答問題，因為今天我發現有一篇文章和之前寫過的完全一樣了，所以又要再請ChatGPT生成30則勵志英文短文，結果之前發問的問題已經消失了，又

2024/08/14

2024/08/14

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

這篇文章介紹瞭如何利用生成式AI（GenAI）來提高學習效率，包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度，保持學術誠信，適當運用GenAI能大幅提升工作效率。

#學習#生成式AI#文章

2024/03/24

易樂的沙龍

加油！以生成式AI 創建，各式各樣客製化精準學習AI BOT！

#學習#生成式AI#文章

2024/03/24

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

程式輕鬆玩

ChatGPT：人工智慧的對話夥伴

ChatGPT（全名：聊天生成預訓練轉換器）是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出，使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型，並以強化學習進行訓練。

2024/05/15

2024/05/15

2024/06/09

2024/06/09

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28