嗨,我是 Lun。
你是否也曾興沖沖地拿著自己或朋友的照片,想讓 AI 生成一張可愛的 Q 版頭像,結果卻得到一個「請問您哪位?」的陌生臉孔?
風格化」與「相似度」的平衡,一直是 AI 圖像生成中最困難的挑戰之一。
今天,我將與你分享一次完整的實戰紀錄。我如何利用 Google AI Studio 中最新的 Gemini 2.5 Flash Image Preview
模型,透過 4 個階段的迭代,將一段最初的想法,進化成一組能精準生成「神似本人」Q 版 3D 婚紗照的黃金提示詞。
這不只是一篇教學,這是我作為一名 AI 應用策略顧問的完整思考路徑。
階段一:原始提示詞 (Raw Prompt) - 充滿想法的草稿
一切都始於一個美好的願望:將一張婚紗照,變成帶有中式古風的 Q 版 3D 人物。我把所有能想到的細節都告訴了 AI:
【原始版本】 將照片里的兩個人轉換成Q版 3D人物,中式古裝婚禮,大紅顏色,背景“囍”字剪紙風格圖案。 服飾要求:寫實,男士身著長袍馬褂,主體為紅色,上面以金色繡龍紋圖案,彰顯尊貴大氣 ,胸前系著大紅花,寓意喜慶吉祥。女士所穿是秀禾服,同樣以紅色為基調,飾有精美的金色花紋與鳳凰刺繡,展現出典雅華麗之感 ,頭上搭配花朵發飾,增添柔美溫婉氣質...

結果分析: 這個版本雖然資訊豐富,但問題非常明顯:
- 缺乏結構:所有資訊混雜在一起,AI 難以區分主次。
- 語意模糊:充滿了「尊貴大氣」、「柔美溫婉」等 AI 難以理解的形容詞。
- 核心缺陷:完全沒有提及要參考原始照片的「臉部特徵」,AI 根本不知道要畫得像誰,這是導致「不像」的根本原因。
階段二:第一次優化 - 結構化與引入「相似度」概念
為了解決問題,我與我的「生成式AI提示詞優化工程師 v1.0」分身進行了第一次優化,將提示詞結構化,並首次加入了「臉部特徵」的指令。
【第一次優化版本】 目標: 生成一張高度風格化的中式古風婚禮主題插畫... 風格與場景:
- 圖像風格: 採用Q版(Chibi)與3D混合風格,融合**手辦(Figure)與黏土公仔(Clay doll)**的質地感... 人物設定:
- 人物臉部(Facial Features): 儘可能在Q版風格的基礎上,精準捕捉與呈現原始照片人物的臉部特徵...

結果分析: 這次的進步是巨大的:
- 結構清晰:AI 能更好地理解不同層面的要求。
- 指令具體:用「手辦」、「黏土公仔」鎖定了風格,比單純的 Q 版 3D 更精準。
- 方向正確:首次引入了「相似度」概念,讓 AI 開始嘗試模仿原始照片。
但問題依然存在:「相似度」的指令不夠強勢,在 AI 的內部計算中,可能被「Q版化」的風格指令蓋過,導致臉部還原度依然不足。
階段三:第二次優化 - 確立核心,解決衝突(最終版)
這一步是整個優化的「勝負手」。我們必須徹底解決「風格」與「相似度」的衝突,將「長得像」提升為最高優先級。
【最終優化版本】 指令核心: 在Q版3D風格的基礎上,最大化人物與原始照片的肖像相似度(Likeness)。
目標: 其五官、髮型及神態應極度相似於(Highly Resemble)原始照片中的人物...
人物設定:
- 人物臉部(Facial Features): 這是本次任務的最高優先級(Highest Priority)。請精準復刻(Precisely Replicate)原始照片中人物的臉部細節與神韻... 此項要求凌駕於純粹的Q版化風格,以確保人物的可辨識性(Recognizability)。
關鍵提示詞(Keywords):
- 高相似度(High Likeness), 肖像(Portrait), 神似(Highly Resemble), 可辨識(Recognizable)...

結果分析: 這個版本之所以能成功,關鍵在於三大策略:
- 確立最高優先級:開宗明義,告訴 AI 「相似度」是本次任務的唯一核心,解決了指令權重不明的問題。
- 專業詞彙強化:引入
Likeness
,Portrait
,Resemble
,Recognizable
等專業詞彙,形成緊密的語意場,讓 AI 徹底理解「相似」的深層意涵。 - 解決風格衝突:用「此項要求凌駕於純粹的Q版化風格」這句指令,直接為 AI 設立了判斷原則,有效地控制了最終結果。
最終版提示詞:
您好,請根據以下提示詞生成圖像:
**指令核心:** 在Q版3D風格的基礎上,最大化人物與**原始照片的肖像相似度(Likeness)**。
**目標:** 生成一張**高度風格化(Highly Stylized)**的**中式古風婚禮主題插畫**。
畫面核心為一對Q版3D新婚夫婦,其五官、髮型及神態應**極度相似於(Highly Resemble)**原始照片中的人物,同時保有Q版風格的可愛與立體感。
**圖像風格與場景:**
1. **風格(Style):** **Q版(Chibi)**與**3D(Three-dimensional)**混合,融合**手辦(Figure)**、**黏土公仔(Clay doll)**與**卡通化人像(Caricature Portrait)**的質感,以達到既可愛又神似的獨特效果。
2. **主題與色調(Theme & Color Palette):** **中式古裝婚禮(Traditional Chinese wedding)**,主色調為**大紅色(Vivid Red)**與**金色(Gold)**。
3. **背景(Background):** 採用**剪紙藝術(Paper-cut art)**風格的**「囍」字圖案**,此圖案需具備**多層次與景深(Multi-layered and with depth)**,而非單一平面。
**人物設定(Characters):**
- **人物數量:** 兩位,一男一女。
- **人物臉部(Facial Features):** 這是本次任務的**最高優先級(Highest Priority)**。請**精準復刻(Precisely Replicate)**原始照片中人物的**臉部細節與神韻**,包含但不限於:**臉型、眉毛、眼睛、鼻型、嘴型及髮型**。此項要求凌駕於純粹的Q版化風格,以確保人物的**可辨識性(Recognizability)**。
- **人物姿態:** 兩人應呈現親密、喜慶的互動姿態,例如並肩而立、手牽手或相視而笑。 **服飾與裝飾細節(Attire & Accessories):
** 1. **男士服飾:**
- **類型:** **中式長袍馬褂**,主體為**大紅色**。
- **圖案:** 表面以**金色繡線**繡上**精緻且寫實的龍紋圖案(Realistic dragon motifs)**。
- **胸前裝飾:** 系著一朵**大紅花**。
- **頭飾:** **中式狀元帽**,帽體紅色,飾有金色紋樣,帽頂有精緻金色裝飾。
2. **女士服飾:** - **類型:** **秀禾服(Xiuhe suit)**,主體為**大紅色**。
- **圖案:** 飾有**精美的金色花紋**與**鳳凰刺繡(Phoenix embroidery)**。
- **頭飾:** **鳳冠(Phoenix coronet)**造型,以**紅色花朵**為中心,搭配**金色立體裝飾**與**垂墜流蘇(Tassel)**。
- **共同特點:** 服裝與頭飾需**細膩寫實(Highly Detailed and Realistic)**地呈現其材質與紋理,同時與人物Q版化風格協調。
**關鍵提示詞(Keywords):**
- **高相似度(High Likeness)**, **肖像(Portrait)**, **神似(Highly Resemble)**, **可辨識(Recognizable)**
- Q版, 3D, 卡通化人像(Caricature Portrait), 手辦, 黏土公仔
- 中式古風, 古裝, 婚禮, 大紅色, 金色, 囍 - 剪紙風格, 立體感, 多層次
- 長袍馬褂, 龍紋, 秀禾服, 鳳凰刺繡
- 狀元帽, 鳳冠, 垂墜流蘇
- 藝術插畫(Illustration), 傑作(Masterpiece)
給你後續的延伸動作的提示詞
選項一:甜蜜對視(Sweet Gaze)
這個指令適用於營造浪漫、深情的氛圍。
人物姿態(Characters' Poses):
兩人深情地對視而笑,男士輕輕牽起女士的手,營造出浪漫且充滿愛意的瞬間。
選項二:活潑互動(Playful Interaction)
這個指令適合想要展現新人活潑、開朗個性,營造俏皮氛圍的圖像。
人物姿態(Characters' Poses):
兩人俏皮地互相依偎,女士輕輕地將頭靠在男士肩上,男士則以溫柔的微笑注視著前方。整體姿勢輕鬆自然,充滿歡樂氣氛。
選項三:傳統莊重(Formal & Traditional)
這個指令適合追求古典、莊重感的圖像,模擬傳統中式婚禮的儀式感。
人物姿態(Characters' Poses):
兩人端莊地並肩而立,雙手自然垂放或輕輕交握,面帶微笑望向前方,呈現出莊重而典雅的傳統中式婚禮儀式感。
選項四:互動式小物(Interactive Props)
這個指令能為畫面增添細節和互動性,使場景更加生動。
人物姿態(Characters' Poses):
兩人共同手持一個具有象徵意義的中式婚禮小物,如一對精緻的紅燈籠、一把喜慶的紅色紙傘,或是一塊寫著「囍」字的扇子。他們可以一起注視著這個小物,或是互相對看並微笑。
選項五:動態捕捉(Dynamic Capture)
這個指令能營造出充滿動感和歡樂氣氛的畫面,彷彿在捕捉一個瞬間。
人物姿態(Characters' Poses):
兩人呈現出歡樂奔跑或輕快小跳的動態姿勢,服飾與髮飾因動作而輕微飄動。女士可以輕輕地提著裙擺,展現出俏皮與輕盈感,同時兩人回頭對鏡頭露出燦爛笑容。
選項六:背景融入(Background Integration)
這個指令讓人物不僅僅是站在背景前,而是與背景元素產生有趣的互動。
人物姿態(Characters' Poses):
兩人並肩站立,其中一人(例如男士)用手指輕輕觸碰或指向背景的「囍」字剪紙圖案,另一人(女士)則用手遮住嘴巴,露出甜美的笑聲。這種互動讓背景不再單調,而是成為故事的一部分。
加碼測試:
同樣的提示詞你也可以拿去GPT5測試唷,你會得到意想不到的圖片,嘿嘿
總結:從想法到指令的進化之路
這三組提示詞代表了從模糊意圖到精準指令的逐步優化過程。
- 第一組是初級的通用描述,缺乏細節和權重。
- 第二組開始意識到問題並試圖解決,但方法不夠強勢。
- 第三組則透過第一性原理和批判性思考,準確地找到了問題的核心(缺乏相似度指令的權重),並運用多重專業詞彙、明確的優先級設定和風格對比等技巧,從根本上解決了問題,使其成為一個能高效引導 AI 生成預期效果的優質提示詞。
- 原始版:初級的通用描述,缺乏細節和權重。
- 優化版1結構清晰,引入相似度相似度指令權重不足
- 優化版2確立核心,解決衝突(已解決)
從這個案例我們可以看到,雖然AI 模型未來勢必會愈來愈茖明,但是至少在短期內,優化提示詞也是相當重要。
一個優質的提示詞,需要將模糊的人類需求,翻譯成清晰、高效、無歧義的機器指令。
希望這次的實戰紀錄,能對同樣在為 AI 繪圖「不像本人」而苦惱的你,帶來一些啟發。
你在 AI 繪圖時,遇過最頭痛的問題是什麼?歡迎在底下留言分享!