哪個AI繪圖工具最能聽懂人話?

更新 發佈閱讀 5 分鐘
raw-image

我在這篇文章之中介紹了幾個好用的繪圖工具,其實AI繪圖工具最吸引人的部分就是 "他能聽懂你的話,並且把你的話轉換成實際的圖片" ,這真的是一個非常神奇的過程,跟過去我們還要自己拿起滑鼠跟繪圖板相比,這實在是一個魔法時刻。

但是究竟AI工具是不是真的能聽得懂我們的人話呢? 還是其實只能拆解裡面的單字理解一部分而已呢? 我們今天就來做個簡單的測試,直接拿一模一樣的輸入(Prompt)餵給各種工具,讓我們來看看會得到怎樣的結果,就知道哪個AI工具最能聽懂人話囉! 既然要做測試,那我們就來選擇一個不能太單純的 Prompt, 有不只一個主詞(多個主體),然後也有動作,也包含環境跟敘述的Prompt。

我們今天選的是an artistic painting of a pretty girl standing underwater embracing 2 big fishes. 主詞有 A pretty girl 跟 2 big fishes, 動作是Embrace,環境是Underwater,繪畫的生成形勢是Artistic Painting。

第一個選手的就是我們的元老Dall-E,以下是產出來的結果

raw-image

其實產出來的結果是讓我覺得吃驚的好,因為主詞完全正確,動作也完全正確,繪畫形式還有環境也很正確,但是Dall-E的弱點就是繪圖的細節跟美感不OK,人物的結構不算是太OK。

第二個選手是從Dall-E改變而來的Bing Image Creator,以下是結果

raw-image

產出來的結果可以說是相當得不錯,主體(女孩跟兩隻魚)非常正確,動作上有一點問題,並沒有真正的Embrace (不過有另外幾張圖其實有做到這樣的動作只是相對構圖比較差),環境跟繪畫的形式也都完全正確,畫面的細節比Dall-E好多了。

第三個選手是插畫家最愛的Midjourney,以下為測試結果

raw-image

好的,產出來結果在美感上真是無懈可擊,且在繪畫的形式還有環境上也呈現的非常完美,但是主體是一個女孩跟一堆魚? 而且說好的擁抱呢? 我重複嘗試了好幾次,雖然偶爾可以有正確的擁抱姿勢,但是永遠都會產出魚群來。

最後一個選手是我們之前談過的,最需要控制的Stable Diffusion,為了避免呈現完全沒有控制的Stable Diffusion 的圖片太醜,這次我用了比較美觀的Model加上一些修試圖片品質的Prompt,但是核心敘述是完全相同的,得到了以下的結果。

raw-image

SD產出來的圖片只要經過正確的Prompt engineering跟參數選擇,充滿美感是沒問題的,但是主體跟Midjourney一樣弄不清楚”兩隻魚"的概念,而且Embrace這個動作呈現得更糟糕了,哪裡生出來的魚叉?

最後隱藏選手,這是2023/5/5才發表的DeepFloyd.Ai 採用的是Google 的Imagen模型,跟前面的選手都不同,最強的地方是終於可以生成正確的文字了,我把Prompt 偷偷加上了Pisces(雙魚座)這個文字,產出如下的圖片

raw-image

可以看到對於文字的理解程度非常好,而且我希望他打出來的字完全正確! 不過這個畫質跟美感,應該還有很長一段路要走,總之是非常令人期待的,等到將來比較成熟以後,我也會把它列為正式的選手來做各種比較。

最後來總結一下,哪個工具最能聽懂人話呢? 依照我們的測試結果,Dall-E跟Bing Image Creator 是最佳的選擇,畢竟背後的Transformer model是由OpenAI(ChatGPT發明者)提供的,所以比較能理解你說的話看來不是隨便說說的,考量到美感問題應該Bing Image Creator是首選,再來的話可以考慮Midjourney,其實多測試修改幾次Prompt 應該都可以得到你想要的結果,無論要商用或是要寫文章配圖用,都還是非常實用的,而且完全不需要擔心美感。 最後的話就是我們的Stable Diffusion了,老實說能聽懂人話的部分不多,如果複雜的圖片(有包含多種人物 跟複雜動作的圖片)要得到好的結果,就必須要去學習一些進階的技巧才能達到效果。 以上,是今天簡短的分享,很希望大家也有學到一點東西,歡迎各位給我一些回饋囉!



留言
avatar-img
留言分享你的想法!
avatar-img
技術PM路易斯的沙龍
50會員
35內容數
技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
2023/11/01
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
2023/11/01
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
看更多
你可能也想看
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
本篇面向AI算圖新手、對寫prompt沒有概念的朋友,以diffusion model系AI繪圖工具為例,分享我自己從零開始學習寫圖像生成prompt的經驗,只談基本架構跟新手上路的方向。 希望每個走過路過的朋友,在看完後經過練習,都可以找到自己寫prompt的風格。
Thumbnail
本篇面向AI算圖新手、對寫prompt沒有概念的朋友,以diffusion model系AI繪圖工具為例,分享我自己從零開始學習寫圖像生成prompt的經驗,只談基本架構跟新手上路的方向。 希望每個走過路過的朋友,在看完後經過練習,都可以找到自己寫prompt的風格。
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
操作很簡單 使用電腦 開啟GPT-4,選擇DALLE.3 複製這段指令進去 注意:這條指令只針對chatgpt 的PLUS會員,同時已經可以使用DALLE.3的使用者。 ##圖片提示字產生器 版本:v0.11 作者:秒懂AI提問指令 {任務}你將扮演圖片提示詞產生器,當我提供簡短{主
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。 目前在微軟的bing與chatGPT Plus中都可以試用DALL·E 3,這篇文章除了簡介DALL·E 3的進步與特性之外,也比較在bing與chatGPT Plus這兩個平台中使用DALL·E 3有何不同?有
Thumbnail
在科技的浪潮下,享受科技帶來的方便感,且有效率及完美的完成事項,讓生活變得更有活力。生活,就是探尋及享受其中的驚喜與樂趣!
Thumbnail
在科技的浪潮下,享受科技帶來的方便感,且有效率及完美的完成事項,讓生活變得更有活力。生活,就是探尋及享受其中的驚喜與樂趣!
Thumbnail
製作提案、報告,或文章、影片新媒體創作的你, 是否覺得找圖片素材曠日廢時,又常不符需求? 這支影片會實測10種AI繪圖網站,幫你速成插圖素材, 並加碼分享排版技巧,應用在內容創作與提案簡報中。 你的原因又是什麼呢? 一起留言討論吧! 待會馬上揭曉答案。 現在就來揭曉問題答案, 就是A,不過如果你猜B
Thumbnail
製作提案、報告,或文章、影片新媒體創作的你, 是否覺得找圖片素材曠日廢時,又常不符需求? 這支影片會實測10種AI繪圖網站,幫你速成插圖素材, 並加碼分享排版技巧,應用在內容創作與提案簡報中。 你的原因又是什麼呢? 一起留言討論吧! 待會馬上揭曉答案。 現在就來揭曉問題答案, 就是A,不過如果你猜B
Thumbnail
我們介紹過很多AI繪圖工具,但是究竟哪一個AI繪圖工具最能理解你的描述呢? 我們決定直接拿一模一樣的輸入(Prompt)餵給各種工具,讓我們來看看會得到怎樣的結果,就知道哪個AI工具最能聽懂人話,請看這篇的分析與實測。
Thumbnail
我們介紹過很多AI繪圖工具,但是究竟哪一個AI繪圖工具最能理解你的描述呢? 我們決定直接拿一模一樣的輸入(Prompt)餵給各種工具,讓我們來看看會得到怎樣的結果,就知道哪個AI工具最能聽懂人話,請看這篇的分析與實測。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News