DALL·E 3是OpenAI近期推出的繪圖模型,相對於舊版可以說是進步的非常非常多。
如果有長期觀注我文章的朋友們應該會注意到我以前每次提到畫爛圖的表率都會提到DALL·E 2,當我想舉一些醜圖例子時,我一定會拿DALL·E出來鞭,主因是舊版的DALL·E與stable diffusion1.5相似,它們畫出來的圖大多太過於藝術且傳統,與大眾審美觀相去甚遠,使用這些傳統模組是畫不出帥哥美女的,也畫不出好看的動漫圖或是精緻詳細的照片構圖等等。(當然要反過來說大眾審美觀不夠高尚也是可以的。)
包括DALL·E 2在內的一票傳統繪圖模型其強項都在於天馬行空的藝術圖片,但與其說是強項,不如說是它們也只能畫那些沒標準型式的圖片才不會有違和感了。
無論如何,若你對DALL·E 2仍然感到好奇的話,它目前仍然是公開免費試用的,到以下網址即可開心試玩:
但新版的DALL·E 3已是脫胎換骨,你不能看不起它了,不管是動漫圖,照片圖,帥哥美女,或是複雜的CG構圖等等它都能畫了,而且品質很好,同時對於prompt的理解度也很高,你直接描述你想要的構圖內容即可,不需要再加一堆高清,大師之作,詳細,漂亮之類的廢話。
想要試玩DALL·E 3,從微軟的Bing image creator上手是較友善的,因為它完全免費,直接開啟網頁即可立刻使用,介面也十分簡單,直接輸入prompt即可開始繪圖,沒有太多複雜的東西需要設定。
它的prompt是可以直接輸入中文的,這對英文不好的人來說是非常友善的,在以英文prompt繪圖時我的思路比較像是英文單字的拚湊,但在可以直接寫中文之後我的思考突然通暢了起來,可以想到更多有趣的繪圖創意。
但與多數AI繪圖平台一樣,它是有嚴格的安全控管的,敏感字無法使用,或是被判定內容不當的圖也會被自動屏蔽,而Bing image creator的嚴格程度算是極高的,並且還有越變越嚴格的趨勢,算是令人不愉快的一點。
在安全機制方面我就不舉太多例子了,反正你直接試試看就知道會很常遇到這件事。
看看它連三隻小豬打架的圖都畫不出來:
微軟也許是樹大招風,相對的也令它非常害怕做錯事,就連之前的聊天式Bing AI也是一樣,越改越嚴格,AI的回覆越來越小心且會隨時中斷對話,已接近於自廢武功的程度了。
以下展示一些範例:
寫實風格是可以的,對prompt的理解力也高,雖然不是四張圖都完全準確的描繪出「其中一個人是豬頭」的要求,但已經很不錯了。
卡通風格也行:
想要再精緻一點的話,日式動漫風也可以:
真實照片風格也行,而且畫出來的人不會再歪七扭八了:
每次出來的圖都是四張一組的,若你發現有少了幾張代表那幾張又被判定為內容敏感的圖了。
CG風格也是可以的:
還能畫出明確的文字,雖然不一定會完全符合你的要求,但至少字體是清晰可辨的了:
由於它真的太嚴格,測到有點心累了,Bing image creator差不多就介紹到這邊。
它出來的圖固定四張一組,但會對敏感圖自動屏蔽,圖片解析度與圖片比例似乎無法改動,固定是正方比例的1024*1024。而在安全性偵測方面,已經可以與牆國的自我審查相比了,除了暴力色情不行之外,政治也不行,或是其它你都覺得莫名奇妙的東西也通通不行。
ChatGPT裡也推出了AI繪圖功能,但首要條件是你必須花月費600元去訂閱ChatGPT PLUS,目前正逐步對訂閱用戶開放中,我也是最近才取得使用資格。
若你也符合資格的話,在GPT-4對話選項中,就會出現一個DALL·E 3可以勾選:
既然同樣是DALL·E 3,那麼繪圖能力就是同等級的,所以我在這段不會單純的重複展示圖片內容,而是講解ChatGPT下的DALL·E 3與Bing image creator的不同之處。
首先,ChatGPT當然也有它的安全性偵測,但沒有微軟那麼誇張,不要明目張膽的畫一些暴力圖色情圖大多是ok的。
舉個例子,上段文章中有提到,「3D CG風景圖,十隻天使在嘔吐」這種prompt是會被bing阻止的,但在ChatGPT是畫的出來的,由於我太想看天使嘔吐長什麼樣子,所以我一定要畫畫看:
在ChatGPT中,出圖時一樣是四張一組:
一萬隻殭屍在奔跑,寫實電影風格,包含殭屍兇狠的臉部特寫
(附帶一提,殭屍跟鬼在Bing image creator也是畫不出來的)
在ChatGPT中同樣接受中文的prompt,較特別的是它會將你的描述詞翻譯為英文,並做適當的修潤:
我原本的prompt是:一個男人坐在椅子上嘔吐,一個女人站在狗上嘔吐,一個小男孩被狗咬。
在點開圖片後即可觀看該圖片的真正prompt:
我的prompt在ChatGPT的修飾後變成了:
Photo capturing a scene of distress where a man is sitting and vomiting, a woman is balancing on a dog and throwing up, and a young boy is in pain as a dog bites him.
(google翻譯:照片捕捉到了一個痛苦的場景,一名男子坐著嘔吐,一名女子在一隻狗上保持平衡並嘔吐,一名小男孩因被狗咬而感到痛苦。)
在ChatGPT中,圖片比例是可以改變的,共支援三種比例:
直接在prompt中表明想要的比例即可:
tall比例的圖片,五隻小貓,但其中四隻是真貓,其中一隻是鐵做的貓
在ChatGPT,產出來的圖片可以進一步的做進階處理,這裡有點像midJourney的功能,midJourney也是可以指定產出的圖片做進一步的放大或轉化,不同的是在ChatGPT中你不用打指令,直接出一張嘴就行了。
例如,我先以下列prompt產出一組風景圖:
square比例的喜馬拉雅山高峰風景圖
接著以口語化的描述要求它在右上角的那張圖加上超人:
但我說的是右上角,它卻好像是抓到右下角。另外,它的本質仍是重畫一張新圖,所以新舊圖片元素也許雷同但並不會完全一樣。
同樣可以用口語化的方式要求它把圖片放大,但放大的圖片解析度仍在它的標準規範內,原本是1024*1024,在重繪後是1792*1024,而不是我們期待的那種1080p變2K,2K變4K的那種"放大"。
ChatGPT版本有個重大的限制是無法繪製版權物,一切的版權物都不行,什麼麥當勞叔叔,皮卡丘,哆啦a夢,七龍珠什麼的,不管是哪個類型的版權物它都不能畫。
如果你想畫這些版權物的話,那就只能使用Bing image creator了。
哆啦a夢發出kamehameha,飛揚的塵土,激烈的光線
(Bing image creator不認識龜派氣功,它會畫出烏龜,必須寫kamehameha它才會懂。)
但即使如此,Bing image creator的高敏感性與漸趨嚴格的審查仍然帶來許多創意的限制,我記得較早時,有人在網上分享麥當勞叔叔大戰肯德基爺爺的圖,十分有趣,如今這種打架圖已經畫不出來了,可惜。
先不論附加功能,光是少了微軟那種過度敏感的自我審查機制,就可以說ChatGPT版本比較好用了,而其餘附加功能都只讓ChatGPT顯得更強勢,唯一的缺點就是要錢。
ChatGPT我本來已經有點玩膩想要退訂了,但它最近三不五時就推出幾個新潮的功能,包括這次的AI繪圖功能,又讓我覺得有保留訂閱的價值了。
但微軟Bing image creator雖說完全免費,其實仍有其伏筆,微軟的繪圖點數使用完畢之後就無法再補充,雖說仍然可以繼續使用其繪圖功能,但繪圖速度會變的非常的慢,據說有可能達到數十分鐘至數小時,目前看來微軟的這個功能真的只是讓你嚐鮮一下而已,也許未來他們會推出更正式的付費產品。