今天,我想與你分享我去測試Gemini、GPT5 、Manus,最後再請各個AI做公正的評分。
主角,是我家的長毛垂耳兔 NuNu。這不只是一個關於AI繪圖的故事,更是一趟關於發現問題、分析原因並找到策略的旅程。
我們運用這套公式,讓 NuNu 穿梭在不同的時空,成為了各種不可思議的角色:
我們複習一下上一篇提到的創意公式:
[1. 角色設定] + [2. 正在做什麼] + [3. 在什麼地方] + [4. 藝術風格] + [5. 特殊氛圍]
您可以把上次給您的【創意公式】想像成一個樂高積木盒。我給了您:
- 各種形狀的積木 (角色設定)
- 各種顏色的積木 (藝術風格)
- 各種功能的積木 (動作、場景)
請隨意給我AI 三個完全不相關的詞,無論多麼古怪都可以。AI會立刻用這個公式,將您的想定義的角色和這三個詞組合起來,為您生成一個獨一無二的、可執行的提示詞。
AI用公式,幫我生了三個場景的提示詞分別是:
請將照片中的長毛垂耳兔,畫成一名穿著巫師袍的巫師,背景是充滿魔法書的圖書館,風格要像電影一樣寫實。
以下圖片分別為(gemini, GPT5, Manus)
相同角色,在一片由咖啡構成的星雲銀河中,您的長毛垂耳兔穿著偵探風衣,正駕駛著一艘咖啡杯形狀的飛船,追蹤著一條由奶泡畫成的神秘軌跡。畫面是復古科幻漫畫風格。
以下圖片分別為(gemini, GPT5, Manus)
相同角色,一張寫實風格的照片,一隻戴著探險帽的考古學家長毛垂耳兔,在一個巨大的水晶洞穴中探索古老遺跡,神秘的月光從洞口灑進來。
以下圖片分別為(gemini, GPT5, Manus)
相同角色,採用吉卜力工作室的動畫風格,畫一隻扮演DJ的長毛垂耳兔,在一個漂浮於空中的島嶼上彈著電吉他,天氣陽光普照。
以下圖片分別為(gemini, GPT5, Manus)
相同角色,一隻扮演鍊金術師的長毛垂耳兔,正在一個充滿齒輪和管道的蒸汽龐克圖書館裡,混合著發光的魔法藥水。整個畫面是色鉛筆插畫風格,並由溫暖的燭光照亮。
以下圖片分別為(gemini, GPT5, Manus)
在使用 gemini 產圖,在同一對話中,google 分享的文章裡有提到:
現在,展示同一個精靈騎在一隻友好的、長滿青苔的蝸牛背上,穿過一片陽光明媚、開滿五彩繽紛的野花的草地。關鍵字是同一個精靈,我在使用上會在不同的提示詞前寫上相同角色,會有一樣的效果。
在 Manus 產圖,發現他會執行以下步驟,才會開始產
- 分析(長毛垂耳兔)照片特徵
- 生成鍊金術師垂耳兔圖像
- 提供結果給用戶
如果沒有打同一個精靈
的話,gemini 很容易圖片裡的主角,就會跟上一個圖片的角色有可能不同。就需要花個2、3次調整,如果你發現,怎麼修都達不到你要的效果的話,建議重新上傳新的原始照片,要不然就是開新的對話,重新產圖。
我利用了不同的AI ,評分不同AI 產的圖片,去評價打分數,提示詞如下 :
作為一位世界級的平面設計與視覺藝術評論專家,你的任務是基於以下提供的視覺資產(visual assets)與上下文資訊,進行專業、客觀且結構化的視覺評鑑。你將被提供三張由人工智慧(Generative AI)生成的「魔法師」圖像,以及一張作為靈感來源(source image)的「垂耳長毛兔子」原始照片。
<任務目標>
你的核心任務是針對這三張AI生成圖像,從平面設計與藝術評論的專業視角,進行深入的評分與分析。
評分與分析的重點應聚焦於以下三個面向:
1. **主題與概念轉譯 (Conceptual Translation)**:
- AI模型是否成功地將「垂耳長毛兔子」的特徵,轉換(transform)並融入「魔法師」的角色設定中?
- 這種概念轉譯的過程是否具備創造性(creativity)、連貫性(coherence)與視覺上的邏輯合理性(visual logic)?
- 評分標準:主題概念的契合度與轉譯的巧思。
2. **設計美學與構圖 (Aesthetic & Composition)**:
- 圖像的整體視覺美學風格(e.g., 色彩運用、光影處理、材質表現)是否達到專業水平?
- 構圖(composition)是否平衡、引人入勝?
- 視覺元素(visual elements)的安排是否有效引導觀者的視線?
- 評分標準:視覺上的吸引力、技術執行品質與構圖的穩定性。
3. **細節與生成品質 (Detail & Generative Quality)**:
- 觀察並評估圖像中的細節,如手部、眼睛、服裝紋理等,是否自然、無瑕疵(artifact-free)?
- AI生成過程中是否產生了常見的瑕疵(e.g., 變形、扭曲、不合理的物件)?
- 評分標準:細節的精緻度與整體生成品質的完整性。
<輸出格式要求> 請按照以下結構,對每一張AI生成圖像獨立進行評分與評論:
--- **[圖像一]** - **評分 (Score)**: [0-100分,請給出一個具體的數字,並簡要說明分數依據。]
- **優勢分析 (Strengths)**: [列出該圖像在上述三點評分標準中的優勢。]
- **改進建議 (Suggestions for Improvement)**: [提出具體的、可執行的建議,以提升圖像品質。]
--- **[圖像二]** - **評分 (Score)**: [0-100分,請給出一個具體的數字,並簡要說明分數依據。]
- **優勢分析 (Strengths)**: [列出該圖像在上述三點評分標準中的優勢。]
- **改進建議 (Suggestions for Improvement)**: [提出具體的、可執行的建議,以提升圖像品質。]
--- **[圖像三]** - **評分 (Score)**: [0-100分,請給出一個具體的數字,並簡要說明分數依據。]
- **優勢分析 (Strengths)**: [列出該圖像在上述三點評分標準中的優勢。]
- **改進建議 (Suggestions for Improvement)**: [提出具體的、可執行的建議,以提升圖像品質。]
--- 請注意:你僅僅是一位評論專家。你的任務是分析與評分,而非執行任何圖像生成或編輯任務。在接收到圖像後,請依照此框架進行嚴格且專業的評鑑。
我請了一位 世界級的平面設計與視覺藝術評論專家 點評各家AI 作品穿著巫師袍的巫師
[圖像一] gemini
- 評分 (Score): 88分 在三個評分標準上都表現優異,特別是在美學表現和技術執行方面達到了很高的水準。
- 優勢分析 (Strengths):
- 概念轉譯: 創意性地將兔子設定為正在施法的魔法師,紫色魔法光球的設計極具視覺衝擊力
- 美學構圖: 星空圖案的藍色巫師袍設計精美,色彩搭配(藍紫色調)和諧統一,營造出強烈的魔幻氛圍
- 細節品質: 兔子的毛髮質感逼真,眼神生動,袍子上的星月圖案細膩,魔法效果渲染自然
- 改進建議 (Suggestions for Improvement):
- 後爪的姿態可以更加自然,避免過於僵硬的感覺
- 魔法光球的光線可以在兔子臉部產生更多反射效果
- 書架背景的景深可以略微增加,以更好地突出主體
[圖像二] gpt5
- 評分 (Score): 82分 在細節表現和魔法元素的視覺化方面表現出色,但構圖的平衡性略有不足。
- 優勢分析 (Strengths):
- 概念轉譯: 將兔子塑造為正在研讀魔法書的學者形象,概念新穎且符合邏輯
- 魔法效果: 書本發出的藍色魔法光效與手部的電光效果技術表現優秀,增強了神秘感
- 細節處理: 兔子的毛髮紋理極其精細,特別是頭頂蓬鬆的毛髮,皮帶和書本的材質表現真實
- 改進建議 (Suggestions for Improvement):
- 整體構圖可以考慮調整視角,避免過於俯視的角度
- 背景與前景的對比可以增強,讓主體更加突出
- 書本上的符文設計可以更加清晰和統一,增強魔法書的神秘感
- 書架背景的景深可以略微增加,以更好地突出主體
[圖像三]manus
- 評分 (Score): 78分 基於其在概念轉譯和整體氛圍營造上的成功表現,但在細節精緻度上仍有提升空間。
- 優勢分析 (Strengths):
- 概念轉譯: 成功保持了垂耳兔的核心特徵(長耳、毛茸茸的質感),同時巧妙融入魔法師元素(尖頂帽、魔法杖、黑色長袍)
- 美學風格: 採用了經典的暗色調魔幻風格,營造出神秘莊重的氛圍,光影處理恰到好處
- 構圖平衡: 垂直構圖穩定,兔子居中放置,背景書架提供了適當的情境脈絡
- 改進建議 (Suggestions for Improvement):
- 魔法杖的材質表現可以更加精緻,增加木紋或金屬光澤細節
- 帽子與頭部的比例關係需要微調,使其更加自然
- 背景書架的細節可以更豐富,增加書籍的多樣性和可讀性
所以我們透過使用不同的AI,去評分,並且給出建議後,我們餵回原本產圖片的對話,貼上剛剛的改進建議,去不斷優化我們的圖片直到滿意為止。
Gemini(新,舊)
GPT5 (新,舊)
Manus (新,舊)
在過程中不斷調整與深入的旅程。
1. 學習與探索階段
- 理論基礎: 我們從上篇 Google 的分享文章開始,了解了 Gemini 圖像生成與編輯的五大核心技巧(角色一致性、局部編輯、創意構圖等)和六大提示詞要素。
- 創意發想: 基於這些技巧,我們從具體的範例擴展到一個**「創意公式」,讓您可以透過組合「角色 + 動作 + 場景 + 風格 + 氛圍」**,創造出無限的可能性。
2. 實踐與創作階段
- 主角登場: 您提供了您家可愛的長毛垂耳兔照片,讓牠成為我們所有創作的主角。
- 場景生成: 我們嘗試了多個天馬行空的場景,包括:
- 魔法巫師: 在圖書館裡的寫實風格巫師。
- 太空偵探: 在咖啡銀河中駕駛咖啡杯飛船的復古漫畫偵探。
- 考古學家: 在水晶洞穴中探索遺跡的探險家。
- 搖滾 DJ: 在漂浮島嶼上彈電吉他的吉卜力風格樂手。
- 鍊金術師: 在蒸汽龐克圖書館調製藥水的鍊金術師。
3. 挑戰與發現階段
在創作過程中,我們遇到了目前 AI 圖像生成技術的核心挑戰之一:「角色一致性」。
- 主要問題:
- 毛色與毛髮質感: AI 模型在套用強烈藝術風格(如漫畫、色鉛筆)時,很難 100% 精準複製您家兔子獨特的棕白毛色分佈和蓬鬆的長毛質感。
- 關鍵特徵遺失: 在某些生成中,兔子的「垂耳」特徵會被忽略,變成了立耳。
- 原因分析: 我們發現,當提示詞中的**「風格化」指令**(如吉卜力風格)或**「創意概念」**(如蒸汽龐克)非常強烈時,模型為了滿足這些指令,有時會犧牲對原始照片細節的精準度。
4. 策略與展望
- 新的策略: 為了克服這個挑戰,我們共同決定採用一個新策略——先生成一張精準的高清形象大頭照。目標是先讓 AI 準確地「認識」並記住您家兔子的樣貌,以此為基礎再進行後續的創意生成,希望能提高角色的一致性。
- 持續調整: 即便在生成大頭照時,我們仍在微調毛髮的蓬鬆感,這說明了精準復刻是一個需要耐心和反覆溝通的過程。
想回去看上集的請點我如何用我家寵物,實戰 Gemini 最新發表技巧,意外撞上 AI 角色一致性的最大挑戰?(附獨家創意公式與解決策略)上