前陣子寫過一篇文章分享過,怎麼選擇合適的AI繪圖工具,其中有一點就是「模型聽不聽得懂你講話」。
剛好我最近因為參加臺北市青年局國際志工的活動,需要生成一些食譜用的照片,因此也來分享一下,模型「聽得懂」和「聽不懂」講話的差別。先說結論:我覺得GPT-4o最聽得懂人話,但是運行時間也最長、還會限制你的使用次數,但幾乎可以一次到位;而Gemini與Copilot雖然(以生成圖片而言)運行的非常很快,但剩下的時間都用在讓你氣到吐血上了,而且很難透過prompt微調成指定條件。
測試一、煮小湯圓的食譜圖片
統一提示詞:畫圖片,這張圖片將用於食譜上,是煮小湯圓的時候,把小湯圓丟進去水煮且湯圓已經浮起來的示意圖
GPT-4o:非常精準,令人驚豔,甚至看不太出來是AI生成的!
Gemini:整體的畫風我也很喜歡,可惜他聽不出來小湯圓和大湯圓的差別,經過追加prompt「湯圓的尺寸還是太大了,再小一點,大概直徑1公分左右」,才成功畫成小湯圓。
Copilot:很顯然無法理解「食譜」要用的照片會有什麼樣的條件,第一張照片甚至只能用creepy形容,甚至畫面中有疑似有煮食人類、腳尾飯的內容,如果拿這張照片去做國際志工交流的話,我可能會被報警、被越南的警察給抓走……
測試二:準備冬瓜檸檬的材料圖片
統一提示詞:畫圖片,這張圖片將用於食譜上,照片中可以看到所需要的材料,分別是冬瓜茶和檸檬汁,其中冬瓜茶的份量較多、檸檬汁則只有一點點
GPT-4o:非常精準,甚至超額完成、在圖片中備註了材料的名稱!
Gemini:冬瓜、哈密瓜,傻傻分不清楚,雖然畫風很可愛,但是因為內容錯誤,所以無法使用。
Copilot:冬瓜、哈密瓜,傻傻分不清楚,甚至杯子裡面出現的是「苦瓜的皮+檸檬的內在」嗎?同樣因為內容錯誤,所以無法使用,而且他還出現了更多完全非我指定的內容,像是八角與肉桂。
測試三、攪拌冬瓜檸檬的圖片
統一提示詞:畫圖片,這張圖片將用於食譜上,照片中可以看到冬瓜茶和檸檬汁已經混合、攪拌均勻,變成一杯好喝的冬瓜檸檬茶
GPT-4o:中規中矩但符合要求、不出錯的圖片。
Gemini:創意驚人,非常優秀的創意,是唯一一個試圖以步驟呈現的,可惜執行成果跟不上,還是有冬瓜、哈密瓜分不清楚的問題,甚至出現了2個步驟4。
Copilot:一樣冬瓜、哈密瓜傻傻分不清楚,甚至出現無法辨認的「瓜」,整體的畫風就是很喜歡加上豐富的背景,需要提詞要求過後才可以提供較素的背景。
追加測試、在冬瓜檸檬裡面加湯圓
提示詞:畫圖片,這張圖片將用於食譜上,照片中是一杯冬瓜檸檬茶,並且加入白色的小湯圓,變成一杯好的冬瓜檸檬湯圓
經過3項測試,我已經放棄讓Gemini和Copilot分清楚冬瓜和哈密瓜的差別了,而且我也不知道為什麼硬要畫出這些奇奇怪怪的瓜出來,所以本段提詞只有在GPT-4o進行測試。
GPT-4o:杯緣和水面的折射處理得很細膩,但相對看得出是AI生成的圖片,而且翻譯的英文開始怪怪的,從lemon tea變成了lemon soup,推測是受到中文的「湯圓」的「湯」所影響。
另外這邊可以特別注意到的事情是,GPT-4o生成的圖片尺寸,不是永遠都一樣的,在本次的測試中,正方形、直式的長方形、橫式的長方形都有出現。當然這是因為我沒有要求,但如果你的用途有特定尺寸的需求,要特別注意能否生成指定的尺寸,或者輔以其他的工具協助。
題外話,雖然這項提詞的內容乍看之下非常詭異,怎麼會把湯圓放進酸酸的飲料裡面呢?不會臭臭苦苦的嗎?但是經過實際測試,把湯圓丟進又甜又酸的冬瓜檸檬裡面,真的滿好吃的,強烈歡迎大家試試看!
以上就是本次測試的全部內容,其實非常建議用相同的提詞同時去測試看看不同的AI繪圖工具,幫助你找到你最喜歡的風格、最符合需求的內容,最重要的是,以你的需求為主,可以參考別人喜歡的工具,但不一定跟風,最適合你的、才是最重要的。