人工智慧快速創作:DALL-E 2 、Midjourney AI 、Disco Diffusion

2022/08/22閱讀時間約 11 分鐘
Midjourney AI 台灣社群臉書社團票選首圖(Created by Kkdd Lu)
你聽過AI生成藝術工具嗎?DALL-E 2 、Midjourney AI 、Disco Diffusion 這三個軟體,都號稱只要輸入「自然語言」,不需要程式語言就能讓運算程序理解,並在幾秒內完成人們想要的創作——不是一幅,是一組。
這類的快速創作過去我們可以從Q版頭像、變臉app、套用濾鏡看見,甚至是Microsoft PPT的「設計構想」,隨便丟照片就幫你生成十幾種排版方式。
上面這種運用還在可想像的範圍,而今這些AI生成藝術的成果,拼貼的痕跡越來越少,從過往需要設定大量參數、它可能還無法執行或者成果差強人意,到日本網友利用這個工具製成漫畫,藝術界線似乎越來越模糊。
AI究竟是不是藝術?AI是否會取代人類?像日本漫畫家山本貴嗣這樣的批評永遠少不了:
所謂的AI繪圖就只是把各種相近色調,以及濃淡的碎片拼湊在一起,讓你誤以為這東西跟你所輸入的指令很像,但你仔細發現就會知道根本天差地別。
這些工具可以做到什麼程度?這樣還是藝術嗎?有沒有什麼關於這些工具的研究?這篇文章會做簡單的介紹和探討。

Dall-E 2 是什麼?

Dall-E名字是以超現實藝術家達利(Salvador Dalí)和迪士尼動畫中的機器人瓦力(WALL-E)組合而成,Dall-E 2則是OpenAI人工智慧研究實驗室在今年4月發佈的網站,根據網站Demo,這個機器模型可以在輸入文字之後,轉換文本的概念、風格、物件,形成一組新的圖片。
DALL-E 2背後的模型被稱為「unCLIP」,據說更接近同實驗室另一個GLIDE系統,而不是上個版本的DALL-E,從網頁上的例子可以看到這次的模型更加貼近語言,且品質更好。
以這組最知名的太空人/騎馬/寫實三個關鍵字為例,點進網站細看照片可以發現照片中的要素是如何組成的:馬匹有不同的角度與姿勢、宇航員皆是坐姿但方向不同、背景皆為星空或星球表面。
選擇一碗湯/作為宇宙中的一顆行星/1960年代的海報,則會出現一組抽色復古照片。
若說真實風格只是物件的拼拼湊湊,這幾碗湯澤更像是海報創作,而這些都在幾秒間就「創作」完成。
也可以就一張真實的照片,找出其中的物件來編輯,任意添加、移動、刪除,或者編輯單一區域,同時為你考慮到鏡射、反光、陰影、紋路,讓照片編輯完還是很自然。
最厲害的應該是在圖片內那些沒有被指定或者說明的部分,也能夠推斷或者生成相似的細節,可以獲得非常乾淨的圖像,並且還可以局部細修。
OpenAI陸續開放百萬名單加入測試,若在各社群網站搜尋「#dalle2」,可以看到各式各樣的創意發想,而這些創意的形成,不需要繪圖基礎、不需要構圖比例、不需要色彩基礎,只要有使用語言的能力,動動鍵盤,創作就完成了。

有哪些創造?

文學作品影像化

過去小說/神話這類文學作品和影像最大的分野,便是影像需要建制動畫、擬真畫面需要龐大的人力財力,甚至做出來還被說「不像」、「不好看」,文學作品只需寥寥幾句就建構了人們腦中的形象。
在這波創作之中,也看到了很多把文學作品中的人物、場景、物品轉化出來的圖片,不禁很認真去比對這些圖片和我自己想像的是否相符,有趣的是,不相符也沒關係,因為這不會是唯一一個作品。

動漫角色二創

動漫角色二創也是這個關鍵字常見的圖片,辛普森、寶可夢可說是數量最多、類型最廣,我在瀏覽的過程中才發現辛普森這張臉原來還能有這麼多變化。

動物/藝術品迷因

動物加上各式各樣他們其實不會吃/喝/的物品,以及變成各式各樣形體後的圖片。
也有藝術品們坐著各種超越它們時代日常生活的動作,例如運動、吃東西、打電腦⋯⋯

Midjourney AI是什麼?

Midjourney 是由 Disco Diffusion 的原作者Somnai 加入的AI藝術實驗室所打造。
和Dall-E2類似,Midjourney 可以根據文本創造圖像,輸入畫家、風格、作品、物件(中文亦可,只是資料比較少),更可以直接丟幾張圖片讓它自動演算出成果,不過進行的方式是建立在Discord頻道上,可以即時看到其他人生成的作品。
在今年5月推出測試beta版之後,就引起一陣旋風,除了上述功能外更有關鍵字與畫家資料庫,提供創作者找到適用詞,只是運算速度相較慢了一點,大概需要一分鐘(也還是超快啦)
目前只要從網頁中加入discord頻道,就可以看到過去大家的創造以及自行嘗試,也可以加入Midjourney 台灣社群,或者在各社群搜尋「#Midjourney AI」看到更多好作品,這邊就不貼上來。

算不算原創?

單從工具角度而論,創作者了解算圖邏輯以及很明顯運用某些特徵來創作,這點應該不是AI算圖開先例,photoshop 這些繪圖軟體的背後,每一個功能也都是無數的指令生成的結果,當時也可能有人因為創作更「容易」而認為數位作品劣於手繪/手作成果。
而今新的討論出現了:當我們輸入一堆現實世界既存的設計師、作品、藝術家,訓練出一個模型,創造出來的作品其實就奠基於前述創作,那這樣算不算抄襲?或者原創比例有多少?
若一個作品是公眾且分享性質的,大概不需要去討論原創與否,但作品若用於盈利、申請計劃、佈展等場合,我們要如何判定其優劣和原創性?
目前各軟體都有限定使用者名額以及個人每日限用次數,需求更高或者盈利需額外收費,亦有避免惡意圖片的機制設定(但並不完全)
這些問題仍有待實驗室發展,或者相關事件出現後,法規與業界的跟進。

有沒有極限?

最近一篇論文〈Testing Relational Understanding in Text-Guided Image Generation〉試圖回應這個問題,找來169名參與者來判定給出特定句子後,網頁生成的10組圖片是否符合他們的想像。
在英文對話中,若我們看到‘the flooben was on the demaglis’,就算不知道flooben、demagil是什麼,也能夠猜測是前者在後者之上,這是語言邏輯;兩位機器學習的研究員在DALL-E 2上測試兩個目標,想知道機器模型對於空間關係 Physical relations(A in B、A in front of B)以及動作/施事關係 Agentic relations(A pushing B、A helping B)兩者的掌握。
以首圖A spoon in a cup和A cup on a spoon 來說,前者出現相符圖像的機率比較高,應是因為這比較符合訓練資料庫的內容,現實生活中很少有杯子在勺子上的狀況發生,這是個反直覺的句子,因此模型沒辦法自行理解與創造,部分影像看起來特別奇怪。
最後的結果如左圖,文字和影像並不完全相符,參與者認為生成圖片和他們對句子的想像和這個句子描述的情境不一致。

實際操作起來如何?

DALL-E 2據傳是可以使用中文,會自動翻譯,排到使用碼之後我就來測驗一下,我使用「獅子坐在屋頂上」這個超簡單的句子,不知道為什麼出現了一些獵奇生物XDDD 非常之神秘,感覺他跟中文還是有一段距離,這點常常是各種軟體開發時中文圈子的悲歌。
所以改用英文「lion sitting on the roof」但再加上一點點難題,「the roof with chimney」
這組照片就正常一點,而且第三張跟第四張實際上蠻可愛的,但第二張的獅子很像營養不良,偏偏我喜歡第二張的屋頂,就讓他用這張再下去跑一組新的圖。
結果第二、三張還是很神秘,我想那個屋頂應該風很大,可是第四張非常可愛~這一切,都在1分鐘內完成。

是不是藝術?

有一位網友鄭秀芳在台灣社群分享自己作品,他透過風格關鍵字來創造九個中國古代傳說怪獸,我很喜歡他為這個創作所下的註解:
由人類企劃主題,提供人工智慧關鍵字生成圖形,由人類後製修圖、美感調整、排版及構成畫面。這是人類與人工智慧的合作系列,任何一方都不能被另一方完全替代,彼此合作,這將是未來。
他認為與其擔心害怕,不如花時間找到能夠維持本質與價值觀的運用方式。
另一位使用者認為自己還是喜歡手繪,覺得這樣更能傳遞自己的情感,但不否認AI生成藝術可以提供原先想不到的呈現方式,畢竟畫畫找圖片參考時,不是每一次都會符合需求,比如視角、色澤、物件或風格之類的,所以對他來說,這些都是一種輔助工具。
你丟關鍵字所生出來的圖像所有權是自己的,所以你可以衍生它或是細化它。
清華大學邱誌勇老師在〈曼諾維奇系列〉Podcast 裡,以Manovich在2019年撰寫的短文〈AI藝術:三個提議〉(Defining AI Arts: Three Proposals)和大家分享,目前的AI生成藝術仍有三個關鍵要素:人類設計的演算法、人類創造的訓練設定、人類選擇他們認為最成功的藝術品,透過網路、演算法、資料集、訓練與認定,才能夠生成作品,因此當時(2019)還無法宣稱這是人工智能藝術,而只是各種人所控制的變項。
但在漫長的機器學習後,或許能夠產製新的、人類意想不到的過程或藝術,而不只是模擬、複製、抽取現實作品/藝術家/風格的再製,這樣就可以真的稱之為AI藝術。
在某個時間區段後,這些分野應會越來越模糊,在每個當下試圖定義什麼是藝術,有點困難,至少在目前,減少創作使用的時間,和取代人類是兩件事。
我還是相信人類總能找到方法,寫出程式規則的人參透本質,是自己的創造;單純運用這個工具產出一堆作品的,回歸個人的創造,但如果把工具玩出新花樣,做出超越這個工具基本值的作品,那又到比較高層次的創造,終歸還是人決定作品的意義。

小結

廣義來說,所有作品都可以被歸在藝術的範疇內,但這個範圍越大,是不是藝術就越不是重點,是否能帶來新的感受、刺激、思考、意義,才是創作者要面對的課題。
以小說為例,在沒有哈利波特這部小說以前,並沒有人懂「斜角巷」意味著什麼,在有了哈利波特以後,魔法仍以各種方式存在或被描述;以畫作為例,在沒有「印象派」以前,就有在意自然光影變化的人,因為歸納或形塑而成現在我們理解的風格。
人們利用AI創作,與人們創造AI創作的規則,兩件事本質上是不同的,但工具本就是會演進的,從筆墨作畫到手繪版,創意才是創作的根源,這個時代的創作者面對的工具更好上手,但是不是更好創作呢?若人們的創造成分少,那麼究竟創作的是AI還是人類?或者這可能是資料庫裡其他人原有的創造?
我想,語言能夠帶來創造,並不是新鮮事,我們使用的語言並不完全基於事實,反而常常想像、建構我們認知的世界,而今語言能夠轉化成圖片,且越來越細緻,是一大躍進,速度可能會越來越快,但,「不存在的語言」需要人們對世間人事物的理解與想像,才可能有真正的創造。
為什麼會看到廣告
玫臻
玫臻
既安靜又跳脫的性子,喜歡找到複雜事物的規則,或者探究娛樂消遣的意義。關心的議題很多,想一一研究透徹,追蹤後可能有驚喜也有驚嚇。
留言0
查看全部
發表第一個留言支持創作者!
從 Google News 追蹤更多 vocus 的最新精選內容