ChatGPT 外,我用這方法搞定 AI 系列圖片生成!

更新於 發佈於 閱讀時間約 8 分鐘
raw-image

我想從上週以來,各位讀者的社群都被 ChatGPT 最新的生圖模型洗版了吧,那鋪天蓋地的吉卜力風格圖片,是否也讓你躍躍欲試?但當你興奮地想用它為專案製作一系列主角相同、動作各異的圖片時,是否發現——生成的結果雖然不錯,但是由於服務的爆火,導致生圖的限制越來越多,耗費時間越來越長,讓你耗費大量時間卻得不到滿意的素材?如果你也遇到了這個「系列圖片」生成的瓶頸,那麼這篇文章或許能提供一個 ChatGPT 之外的有效解方。

這個生圖模型為何能紅?又為何讓人卡關?

ChatGPT 更新的這個「自迴歸模型」生圖功能,無疑是近期 AI 界的焦點。相較於先前主流的「擴散模型」(如 Stable Diffusion、Midjourney),它在理解自然語言、直接生成多樣化內容上似乎更勝一籌。理論上,生成系列圖片——比如讓同一個角色擺出不同姿勢——應該是它的強項。很多人也確實用它快速製作了 LINE 貼圖等創意內容,這也是它爆紅的主因。

然而,熱潮的背後是現實的骨感。首先是使用體驗的下滑:生成速度變慢、額度限制變多、有時甚至「降智」般地無法理解指令。更關鍵的是,在我嘗試將它用於遊戲專案的素材製作時,發現了更深層的問題。

我近期需要為一款遊戲化健身 APP 製作一系列由同一位教練演示不同動作的圖片。起初我寄望於 ChatGPT,但實際使用後發現,即使是新模型,在要求嚴格的人物一致性時,表現仍不穩定。有時人物的臉部細節會模糊不清,五官比例偶爾失調,或是整體風格難以完美統一,總讓我覺得「差點意思」,不夠精美。

可以明顯的看出兩張圖的人物長相差異

可以明顯的看出兩張圖的人物長相差異

同時,為了製作一款像素風桌面小遊戲的 Sprite Sheet(連續動畫圖),我也用 ChatGPT 進行了測試。雖然單張效果驚豔,但連續生成三張就常需等待冷卻,有時一張圖甚至要花 2-3 分鐘,這對於需要大量且快速產出素材的開發流程來說,效率實在太低。

小圖看上去很好,但放大後就有明顯的臉部模糊問題

小圖看上去很好,但放大後就有明顯的臉部模糊問題

ChatGPT 之外的選擇:ImageFX 的驚喜與挑戰

在 ChatGPT 的效率與美感瓶頸下,我轉向了 Google 的 ImageFX(目前仍需申請試用)。我之前文章的一些配圖就依靠它,其生成單張圖片的美感和質感往往更符合我的期待,速度也較快(通常一分鐘內生成四張供選擇)。

ImageFX不用太精細的提示詞,也能產出很好的圖片

ImageFX不用太精細的提示詞,也能產出很好的圖片

但 ImageFX 同樣基於「擴散模型」,這意味著它在生成系列圖片時,「人物一致性」的老問題依然存在。常常是第一張圖令人滿意,但當我試圖讓同一個角色換個動作時,角色的服裝細節、髮型,甚至臉部特徵都可能悄悄「飄移」,一致性難以保證。

用同一組提示詞在ImageFX產生的圖片

用同一組提示詞在ImageFX產生的圖片

Aha Moment 與步驟優化

就在我快要放棄,準備回頭硬啃 Stable Diffusion 或接受 ChatGPT 的不完美時,我意外發現了一個結合 Google 工具鏈的方法,有效地解決了 ImageFX 的一致性問題! 這個發現讓我的素材製作流程豁然開朗。

那麼,我是如何用 ImageFX 製作一系列高度一致的圖片呢?

  1. 起點:獲取基礎人物
    1. 在 ImageFX 或 Gemini (Flash 2.0 模型) 中,使用簡單提示詞生成一張你大致滿意的人物圖(例如:「一位穿著運動服的亞洲女性健身教練,笑容燦爛,背景為明亮的健身房」)。
  2. 關鍵一步:讓 Gemini Pro 優化提示詞
    • 將步驟 1 生成的滿意圖片 或 你對理想人物的詳細描述,提供給 Gemini 2.5 Pro (或其他強大的語言模型)。
    • 要求它:「請根據這張圖片/我的描述,為 Google 的 Imagen 3 模型 (ImageFX/Flash 2.0 使用的模型) 生成一段詳細的、結構化的英文提示詞,以確保能穩定重現這個人物的樣貌特徵。」
    • [為何要這樣做?] Gemini Pro 通常能生成比我們隨手寫的更精確、更符合 AI 模型偏好的提示詞,包含臉部特徵、服裝細節、光線、風格等,這是提高後續一致性的基礎。
  3. 生成基準圖:
    1. 將 Gemini Pro 生成的詳細提示詞貼回 ImageFX 或 Flash 2.0,生成圖片。微調提示詞(或讓 Gemini Pro 再次優化),直到獲得一張你非常滿意的「基準人物圖」。
  4. 生成系列動作 (核心技巧):
    • 使用 ImageFX:
    • 在生成滿意的基準圖後,找到並「鎖定 (Lock)」該圖片的「種子 (Seed)」。[為何鎖定 Seed 有效?] Seed 控制了生成過程中的隨機性。鎖定它,意味著 AI 在生成新圖時會基於與基準圖非常相似的初始噪點,更容易保持人物和風格的一致性。
    • 現在,在原提示詞後面加入你想要的動作描述(例如:", doing jumping jacks" 或 ", lifting dumbbells"),重新生成。你會發現人物一致性大大提高!主要需要調整的可能是動作的自然度和準確性。
    • 使用 Gemini (Flash 2.0):
    • 好消息是: 根據我的測試,Flash 2.0 對話模式下的 Imagen 3 似乎能更好地理解上下文。
    • 在生成滿意的基準圖後,直接在對話中繼續要求:「很好,現在讓她做開合跳 (Now have her do jumping jacks)」。Flash 2.0 通常能較好地保持人物一致性,甚至對動作的理解有時優於 ImageFX。
    • [我的經驗]:同樣是「開合跳」這個動作,我在 ImageFX 中反覆調整提示詞並鎖定 Seed,最好也只得到差強人意的結果;但在 Flash 2.0 中直接要求,第二次生成就得到了一張動作合理、人物一致的滿意圖片。
  5. 迭代優化:
    • 如果生成的動作不理想,或一致性仍有偏差,可以嘗試:
    • 微調動作描述。回到步驟 2,讓 Gemini Pro 針對特定動作再提供更精確的提示詞片段。在 ImageFX 中嘗試不同的 Seed,有時會有意外收穫。
透過上述流程成功用ImageFX製作了一系列圖片,不過未​​固定場景

透過上述流程成功用ImageFX製作了一系列圖片,不過未​​固定場景

透過這個流程,我終於成功生成了所需的 15 張運動示範圖!不僅人物保持了高度一致(臉部、髮型、服裝基本不變),省去了大量手動修改或反覆生成的挫敗感,而且在真人照片風格上,Imagen 3 的質感和細節表現甚至超出了我最初用 ChatGPT 時的預期!後續我將此流程應用於像素 Sprite Sheet 的生成,同樣取得了非常好的效果。

美女教練測試連結:https://g.co/gemini/share/e0a00eb307ae

2D像素Sprite Sheet測試:https://g.co/gemini/share/1b4b9f5f04ee

正是這樣的探索與突破,促使我寫下這篇文章,當然,我自己在測試的過程中,也懷疑過,Google 應該有為了因應 ChatGPT,偷偷的提升了 Imagen 3 的能力但沒有明說,畢竟在之前也不是沒人做過我這樣的嘗試,但是生成效果都沒有那麼好,5月下旬就是今年的 Google I/O,到時候Google應該會丟出許多重磅AI產品,非常令我期待,畢竟目前最新的 Gemini 2.5 Pro 真的上帶給我最多AI幸福感的模型。

用 AI 做些什麼,真的很有意思!

這次解決圖片生成難題的經驗,也讓我更深刻體會到「用 AI 做些什麼」的樂趣與力量。這和我近期投入「Vibe Coding」(基本上是用自然語言和 AI 一起寫程式)的體驗不謀而合:AI 正在成為強大的槓桿,讓我們這些非技術背景的人也能跨越技能門檻,將創意和想法付諸實踐。

無論是克服圖片一致性的挑戰,還是透過 Vibe Coding 快速搭建 APP 原型,核心都是一種主動運用 AI 來解決問題、創造價值的思維。有了這樣的體驗之後,我真心認為,所有從事企劃、行銷、PM、營運,任何需要將想法落地、需要產出內容或產品原型的人,都值得去探索如何將 AI 融入自己的工作流。

如果你也是一位需要產出視覺素材的行銷人員、內容創作者、產品經理,或是任何卡在「想法很多,執行很難」階段的實踐者,希望我這次的 AI 圖片生成經驗分享,能為你帶來一些啟發與實用的幫助。 後續我也會繼續分享我使用 AI(包含 Vibe Coding)開發遊戲化健身 APP 的心得與思考,敬請期待!

留言
avatar-img
留言分享你的想法!
avatar-img
Roland Zhong的沙龍
3會員
43內容數
藉過往將近 10 年遊走於兩岸,並先後任職於各間上海知名遊戲公司的經驗,分享一系列行銷文章,也將不定時撰寫一些業界觀察、八卦雜談、產業趣聞等內容,歡迎關注我的文章,若有問題想諮詢也歡迎私訊,我將不吝解答
Roland Zhong的沙龍的其他內容
2025/03/30
這週在飛鳥涼的百億遊戲營運/行銷課程群中聊天,聊到了當前Steam遊戲的社區與評論區經營,接著就又聊到了怎麼有效提升玩家把遊戲加入願望清單的數字,而這就讓我想到了上個月看到的《人中之龍8》與「三商巧福」進行的異業合作。 把《人中之龍8》加入願望清單就得燙青菜 這個內容算是我覺得這檔合作的主要亮點
Thumbnail
2025/03/30
這週在飛鳥涼的百億遊戲營運/行銷課程群中聊天,聊到了當前Steam遊戲的社區與評論區經營,接著就又聊到了怎麼有效提升玩家把遊戲加入願望清單的數字,而這就讓我想到了上個月看到的《人中之龍8》與「三商巧福」進行的異業合作。 把《人中之龍8》加入願望清單就得燙青菜 這個內容算是我覺得這檔合作的主要亮點
Thumbnail
2025/03/22
在競爭激烈的遊戲市場中,台灣遊戲行銷公司(乙方)若想拓展業務版圖,與大陸遊戲公司(甲方)合作無疑是一條重要的途徑。然而,許多台灣乙方在向大陸甲方提案時,常常遭遇挫折,精心準備的提案往往石沉大海。
Thumbnail
2025/03/22
在競爭激烈的遊戲市場中,台灣遊戲行銷公司(乙方)若想拓展業務版圖,與大陸遊戲公司(甲方)合作無疑是一條重要的途徑。然而,許多台灣乙方在向大陸甲方提案時,常常遭遇挫折,精心準備的提案往往石沉大海。
Thumbnail
2025/03/16
AI 時代,你焦慮了嗎? 我想最近這段時間,應該是許多人 AI 焦慮最深的一段時間。天天看著各種工具推陳出新,一下是 DeepSeek 橫空出世,轉頭就是 OpenAI 推出 ChatGPT 的新功能,再來又是各種自動化工具,什麼 n8n、Make 等等。然後,看著最與世無爭的 Claude 也推
Thumbnail
2025/03/16
AI 時代,你焦慮了嗎? 我想最近這段時間,應該是許多人 AI 焦慮最深的一段時間。天天看著各種工具推陳出新,一下是 DeepSeek 橫空出世,轉頭就是 OpenAI 推出 ChatGPT 的新功能,再來又是各種自動化工具,什麼 n8n、Make 等等。然後,看著最與世無爭的 Claude 也推
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
今天又發現ChatGPT的一些缺點, 使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看, 它就能更準確的回答問題, 因為今天我發現有一篇文章和之前寫過的完全一樣了, 所以又要再請ChatGPT生成30則勵志英文短文, 結果之前發問的問題已經消失了, 又
Thumbnail
今天又發現ChatGPT的一些缺點, 使用時需要很準確的提供你想要表達的文字(我覺得還蠻重要的) 又或者拿一些範例給它看, 它就能更準確的回答問題, 因為今天我發現有一篇文章和之前寫過的完全一樣了, 所以又要再請ChatGPT生成30則勵志英文短文, 結果之前發問的問題已經消失了, 又
Thumbnail
用 ChatGPT 生成似顏繪的差別在於可以依照自己的心意,客製喜歡的風格或氛圍。文末有免費去背與提升像素工具分享。
Thumbnail
用 ChatGPT 生成似顏繪的差別在於可以依照自己的心意,客製喜歡的風格或氛圍。文末有免費去背與提升像素工具分享。
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
科技發達,AI智能也越來越發達。 蠢孩子,我每篇小說的圖片都是用AI製作的唷!!
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
ChatGPT(全名:聊天生成預訓練轉換器)是一個由 OpenAI 開發的人工智慧聊天機器人程式。它於 2022 年 11 月推出,使用了基於 GPT-3.5、GPT-4 和 GPT-4o 架構的大型語言模型,並以強化學習進行訓練。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
在晶狀智慧的時代,人類與AI共舞,共同建構更先進、更智能的未來。這是一場革命,一場改變人類命運的奇蹟,讓我們共同見證這個智慧的新紀元。
Thumbnail
在晶狀智慧的時代,人類與AI共舞,共同建構更先進、更智能的未來。這是一場革命,一場改變人類命運的奇蹟,讓我們共同見證這個智慧的新紀元。
Thumbnail
人工智慧(AI)時代的到來,並不代表要取代人類的工作,而是要幫忙人類釋放雙手,集中在內心的成長上。透過閱讀阿卡西和運用AI工具,可以為個人的成長增添新的力量。
Thumbnail
人工智慧(AI)時代的到來,並不代表要取代人類的工作,而是要幫忙人類釋放雙手,集中在內心的成長上。透過閱讀阿卡西和運用AI工具,可以為個人的成長增添新的力量。
Thumbnail
第 19 天:使用 ChatGPT 完成了哪 3 個任務? 這幾年真的人人都在討論 AI,在我工作的產業裡,也有不少設計師擔心未來會被 AI 取代。 但我認為,AI 就像一個得力助手,可以幫助人們更快完成庶務,給我們更多時間思考更多可能~
Thumbnail
第 19 天:使用 ChatGPT 完成了哪 3 個任務? 這幾年真的人人都在討論 AI,在我工作的產業裡,也有不少設計師擔心未來會被 AI 取代。 但我認為,AI 就像一個得力助手,可以幫助人們更快完成庶務,給我們更多時間思考更多可能~
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News