哪個AI繪圖工具最能聽懂人話?

更新於 2023/05/18發佈於 2023/05/16閱讀時間約 4 分鐘

Whisper to your AI - by Midjourney

我在這篇文章之中介紹了幾個好用的繪圖工具，其實AI繪圖工具最吸引人的部分就是 "他能聽懂你的話，並且把你的話轉換成實際的圖片" ，這真的是一個非常神奇的過程，跟過去我們還要自己拿起滑鼠跟繪圖板相比，這實在是一個魔法時刻。

但是究竟AI工具是不是真的能聽得懂我們的人話呢? 還是其實只能拆解裡面的單字理解一部分而已呢? 我們今天就來做個簡單的測試，直接拿一模一樣的輸入(Prompt)餵給各種工具，讓我們來看看會得到怎樣的結果，就知道哪個AI工具最能聽懂人話囉! 既然要做測試，那我們就來選擇一個不能太單純的 Prompt，有不只一個主詞(多個主體)，然後也有動作，也包含環境跟敘述的Prompt。

我們今天選的是an artistic painting of a pretty girl standing underwater embracing 2 big fishes. 主詞有 A pretty girl 跟 2 big fishes, 動作是Embrace，環境是Underwater，繪畫的生成形勢是Artistic Painting。

第一個選手的就是我們的元老Dall-E，以下是產出來的結果

其實產出來的結果是讓我覺得吃驚的好，因為主詞完全正確，動作也完全正確，繪畫形式還有環境也很正確，但是Dall-E的弱點就是繪圖的細節跟美感不OK，人物的結構不算是太OK。

第二個選手是從Dall-E改變而來的Bing Image Creator，以下是結果

產出來的結果可以說是相當得不錯，主體(女孩跟兩隻魚)非常正確，動作上有一點問題，並沒有真正的Embrace (不過有另外幾張圖其實有做到這樣的動作只是相對構圖比較差)，環境跟繪畫的形式也都完全正確，畫面的細節比Dall-E好多了。

第三個選手是插畫家最愛的Midjourney，以下為測試結果

好的，產出來結果在美感上真是無懈可擊，且在繪畫的形式還有環境上也呈現的非常完美，但是主體是一個女孩跟一堆魚? 而且說好的擁抱呢? 我重複嘗試了好幾次，雖然偶爾可以有正確的擁抱姿勢，但是永遠都會產出魚群來。

最後一個選手是我們之前談過的，最需要控制的Stable Diffusion，為了避免呈現完全沒有控制的Stable Diffusion 的圖片太醜，這次我用了比較美觀的Model加上一些修試圖片品質的Prompt，但是核心敘述是完全相同的，得到了以下的結果。

SD產出來的圖片只要經過正確的Prompt engineering跟參數選擇，充滿美感是沒問題的，但是主體跟Midjourney一樣弄不清楚”兩隻魚"的概念，而且Embrace這個動作呈現得更糟糕了，哪裡生出來的魚叉?

最後隱藏選手，這是2023/5/5才發表的DeepFloyd.Ai 採用的是Google 的Imagen模型，跟前面的選手都不同，最強的地方是終於可以生成正確的文字了，我把Prompt 偷偷加上了Pisces(雙魚座)這個文字，產出如下的圖片

可以看到對於文字的理解程度非常好，而且我希望他打出來的字完全正確! 不過這個畫質跟美感，應該還有很長一段路要走，總之是非常令人期待的，等到將來比較成熟以後，我也會把它列為正式的選手來做各種比較。

最後來總結一下，哪個工具最能聽懂人話呢? 依照我們的測試結果，Dall-E跟Bing Image Creator 是最佳的選擇，畢竟背後的Transformer model是由OpenAI(ChatGPT發明者)提供的，所以比較能理解你說的話看來不是隨便說說的，考量到美感問題應該Bing Image Creator是首選，再來的話可以考慮Midjourney，其實多測試修改幾次Prompt 應該都可以得到你想要的結果，無論要商用或是要寫文章配圖用，都還是非常實用的，而且完全不需要擔心美感。最後的話就是我們的Stable Diffusion了，老實說能聽懂人話的部分不多，如果複雜的圖片(有包含多種人物跟複雜動作的圖片)要得到好的結果，就必須要去學習一些進階的技巧才能達到效果。以上，是今天簡短的分享，很希望大家也有學到一點東西，歡迎各位給我一些回饋囉!

為什麼會看到廣告

技術PM路易斯的沙龍技術PM的AI實驗室AI繪圖技術PM路易斯的沙龍技術PM的AI實驗室AI深度學習

技術PM路易斯的沙龍

49會員

35內容數