Whisper to your AI - by Midjourney
我在
這篇文章之中介紹了幾個好用的繪圖工具,其實AI繪圖工具最吸引人的部分就是 "他能聽懂你的話,並且把你的話轉換成實際的圖片" ,這真的是一個非常神奇的過程,跟過去我們還要自己拿起滑鼠跟繪圖板相比,這實在是一個魔法時刻。
但是究竟AI工具是不是真的能聽得懂我們的人話呢? 還是其實只能拆解裡面的單字理解一部分而已呢? 我們今天就來做個簡單的測試,直接拿一模一樣的輸入(Prompt)餵給各種工具,讓我們來看看會得到怎樣的結果,就知道哪個AI工具最能聽懂人話囉! 既然要做測試,那我們就來選擇一個不能太單純的 Prompt, 有不只一個主詞(多個主體),然後也有動作,也包含環境跟敘述的Prompt。
我們今天選的是an artistic painting of a pretty girl standing underwater embracing 2 big fishes. 主詞有 A pretty girl 跟 2 big fishes, 動作是Embrace,環境是Underwater,繪畫的生成形勢是Artistic Painting。
第一個選手的就是我們的元老Dall-E,以下是產出來的結果
其實產出來的結果是讓我覺得吃驚的好,因為主詞完全正確,動作也完全正確,繪畫形式還有環境也很正確,但是Dall-E的弱點就是繪圖的細節跟美感不OK,人物的結構不算是太OK。
第二個選手是從Dall-E改變而來的Bing Image Creator,以下是結果
產出來的結果可以說是相當得不錯,主體(女孩跟兩隻魚)非常正確,動作上有一點問題,並沒有真正的Embrace (不過有另外幾張圖其實有做到這樣的動作只是相對構圖比較差),環境跟繪畫的形式也都完全正確,畫面的細節比Dall-E好多了。
第三個選手是插畫家最愛的Midjourney,以下為測試結果
好的,產出來結果在美感上真是無懈可擊,且在繪畫的形式還有環境上也呈現的非常完美,但是主體是一個女孩跟一堆魚? 而且說好的擁抱呢? 我重複嘗試了好幾次,雖然偶爾可以有正確的擁抱姿勢,但是永遠都會產出魚群來。
最後一個選手是我們之前談過的,最需要控制的Stable Diffusion,為了避免呈現完全沒有控制的Stable Diffusion 的圖片太醜,這次我用了比較美觀的Model加上一些修試圖片品質的Prompt,但是核心敘述是完全相同的,得到了以下的結果。
SD產出來的圖片只要經過正確的Prompt engineering跟參數選擇,充滿美感是沒問題的,但是主體跟Midjourney一樣弄不清楚”兩隻魚"的概念,而且Embrace這個動作呈現得更糟糕了,哪裡生出來的魚叉?
最後隱藏選手,這是2023/5/5才發表的DeepFloyd.Ai 採用的是Google 的Imagen模型,跟前面的選手都不同,最強的地方是終於可以生成正確的文字了,我把Prompt 偷偷加上了Pisces(雙魚座)這個文字,產出如下的圖片
可以看到對於文字的理解程度非常好,而且我希望他打出來的字完全正確! 不過這個畫質跟美感,應該還有很長一段路要走,總之是非常令人期待的,等到將來比較成熟以後,我也會把它列為正式的選手來做各種比較。
最後來總結一下,哪個工具最能聽懂人話呢? 依照我們的測試結果,Dall-E跟Bing Image Creator 是最佳的選擇,畢竟背後的Transformer model是由OpenAI(ChatGPT發明者)提供的,所以比較能理解你說的話看來不是隨便說說的,考量到美感問題應該Bing Image Creator是首選,再來的話可以考慮Midjourney,其實多測試修改幾次Prompt 應該都可以得到你想要的結果,無論要商用或是要寫文章配圖用,都還是非常實用的,而且完全不需要擔心美感。 最後的話就是我們的Stable Diffusion了,老實說能聽懂人話的部分不多,如果複雜的圖片(有包含多種人物 跟複雜動作的圖片)要得到好的結果,就必須要去學習一些進階的技巧才能達到效果。 以上,是今天簡短的分享,很希望大家也有學到一點東西,歡迎各位給我一些回饋囉!