人工智慧快速創作:DALL-E 2 、Midjourney AI 、Disco Diffusion

更新於 發佈於 閱讀時間約 11 分鐘
Midjourney AI 台灣社群臉書社團票選首圖(Created by Kkdd Lu)
你聽過AI生成藝術工具嗎?DALL-E 2 、Midjourney AI 、Disco Diffusion 這三個軟體,都號稱只要輸入「自然語言」,不需要程式語言就能讓運算程序理解,並在幾秒內完成人們想要的創作——不是一幅,是一組。
這類的快速創作過去我們可以從Q版頭像、變臉app、套用濾鏡看見,甚至是Microsoft PPT的「設計構想」,隨便丟照片就幫你生成十幾種排版方式。
上面這種運用還在可想像的範圍,而今這些AI生成藝術的成果,拼貼的痕跡越來越少,從過往需要設定大量參數、它可能還無法執行或者成果差強人意,到日本網友利用這個工具製成漫畫,藝術界線似乎越來越模糊。
AI究竟是不是藝術?AI是否會取代人類?像日本漫畫家山本貴嗣這樣的批評永遠少不了:
所謂的AI繪圖就只是把各種相近色調,以及濃淡的碎片拼湊在一起,讓你誤以為這東西跟你所輸入的指令很像,但你仔細發現就會知道根本天差地別。
這些工具可以做到什麼程度?這樣還是藝術嗎?有沒有什麼關於這些工具的研究?這篇文章會做簡單的介紹和探討。

Dall-E 2 是什麼?

Dall-E名字是以超現實藝術家達利(Salvador Dalí)和迪士尼動畫中的機器人瓦力(WALL-E)組合而成,Dall-E 2則是OpenAI人工智慧研究實驗室在今年4月發佈的網站,根據網站Demo,這個機器模型可以在輸入文字之後,轉換文本的概念、風格、物件,形成一組新的圖片。
DALL-E 2背後的模型被稱為「unCLIP」,據說更接近同實驗室另一個GLIDE系統,而不是上個版本的DALL-E,從網頁上的例子可以看到這次的模型更加貼近語言,且品質更好。
以這組最知名的太空人/騎馬/寫實三個關鍵字為例,點進網站細看照片可以發現照片中的要素是如何組成的:馬匹有不同的角度與姿勢、宇航員皆是坐姿但方向不同、背景皆為星空或星球表面。
選擇一碗湯/作為宇宙中的一顆行星/1960年代的海報,則會出現一組抽色復古照片。
若說真實風格只是物件的拼拼湊湊,這幾碗湯澤更像是海報創作,而這些都在幾秒間就「創作」完成。
也可以就一張真實的照片,找出其中的物件來編輯,任意添加、移動、刪除,或者編輯單一區域,同時為你考慮到鏡射、反光、陰影、紋路,讓照片編輯完還是很自然。
最厲害的應該是在圖片內那些沒有被指定或者說明的部分,也能夠推斷或者生成相似的細節,可以獲得非常乾淨的圖像,並且還可以局部細修。
OpenAI陸續開放百萬名單加入測試,若在各社群網站搜尋「#dalle2」,可以看到各式各樣的創意發想,而這些創意的形成,不需要繪圖基礎、不需要構圖比例、不需要色彩基礎,只要有使用語言的能力,動動鍵盤,創作就完成了。

有哪些創造?

文學作品影像化

過去小說/神話這類文學作品和影像最大的分野,便是影像需要建制動畫、擬真畫面需要龐大的人力財力,甚至做出來還被說「不像」、「不好看」,文學作品只需寥寥幾句就建構了人們腦中的形象。
在這波創作之中,也看到了很多把文學作品中的人物、場景、物品轉化出來的圖片,不禁很認真去比對這些圖片和我自己想像的是否相符,有趣的是,不相符也沒關係,因為這不會是唯一一個作品。

動漫角色二創

動漫角色二創也是這個關鍵字常見的圖片,辛普森、寶可夢可說是數量最多、類型最廣,我在瀏覽的過程中才發現辛普森這張臉原來還能有這麼多變化。

動物/藝術品迷因

動物加上各式各樣他們其實不會吃/喝/的物品,以及變成各式各樣形體後的圖片。
也有藝術品們坐著各種超越它們時代日常生活的動作,例如運動、吃東西、打電腦⋯⋯

Midjourney AI是什麼?

Midjourney 是由 Disco Diffusion 的原作者Somnai 加入的AI藝術實驗室所打造。
和Dall-E2類似,Midjourney 可以根據文本創造圖像,輸入畫家、風格、作品、物件(中文亦可,只是資料比較少),更可以直接丟幾張圖片讓它自動演算出成果,不過進行的方式是建立在Discord頻道上,可以即時看到其他人生成的作品。
在今年5月推出測試beta版之後,就引起一陣旋風,除了上述功能外更有關鍵字與畫家資料庫,提供創作者找到適用詞,只是運算速度相較慢了一點,大概需要一分鐘(也還是超快啦)
目前只要從網頁中加入discord頻道,就可以看到過去大家的創造以及自行嘗試,也可以加入Midjourney 台灣社群,或者在各社群搜尋「#Midjourney AI」看到更多好作品,這邊就不貼上來。

算不算原創?

單從工具角度而論,創作者了解算圖邏輯以及很明顯運用某些特徵來創作,這點應該不是AI算圖開先例,photoshop 這些繪圖軟體的背後,每一個功能也都是無數的指令生成的結果,當時也可能有人因為創作更「容易」而認為數位作品劣於手繪/手作成果。
而今新的討論出現了:當我們輸入一堆現實世界既存的設計師、作品、藝術家,訓練出一個模型,創造出來的作品其實就奠基於前述創作,那這樣算不算抄襲?或者原創比例有多少?
若一個作品是公眾且分享性質的,大概不需要去討論原創與否,但作品若用於盈利、申請計劃、佈展等場合,我們要如何判定其優劣和原創性?
目前各軟體都有限定使用者名額以及個人每日限用次數,需求更高或者盈利需額外收費,亦有避免惡意圖片的機制設定(但並不完全)
這些問題仍有待實驗室發展,或者相關事件出現後,法規與業界的跟進。

有沒有極限?

最近一篇論文〈Testing Relational Understanding in Text-Guided Image Generation〉試圖回應這個問題,找來169名參與者來判定給出特定句子後,網頁生成的10組圖片是否符合他們的想像。
在英文對話中,若我們看到‘the flooben was on the demaglis’,就算不知道flooben、demagil是什麼,也能夠猜測是前者在後者之上,這是語言邏輯;兩位機器學習的研究員在DALL-E 2上測試兩個目標,想知道機器模型對於空間關係 Physical relations(A in B、A in front of B)以及動作/施事關係 Agentic relations(A pushing B、A helping B)兩者的掌握。
以首圖A spoon in a cup和A cup on a spoon 來說,前者出現相符圖像的機率比較高,應是因為這比較符合訓練資料庫的內容,現實生活中很少有杯子在勺子上的狀況發生,這是個反直覺的句子,因此模型沒辦法自行理解與創造,部分影像看起來特別奇怪。
最後的結果如左圖,文字和影像並不完全相符,參與者認為生成圖片和他們對句子的想像和這個句子描述的情境不一致。

實際操作起來如何?

DALL-E 2據傳是可以使用中文,會自動翻譯,排到使用碼之後我就來測驗一下,我使用「獅子坐在屋頂上」這個超簡單的句子,不知道為什麼出現了一些獵奇生物XDDD 非常之神秘,感覺他跟中文還是有一段距離,這點常常是各種軟體開發時中文圈子的悲歌。
所以改用英文「lion sitting on the roof」但再加上一點點難題,「the roof with chimney」
這組照片就正常一點,而且第三張跟第四張實際上蠻可愛的,但第二張的獅子很像營養不良,偏偏我喜歡第二張的屋頂,就讓他用這張再下去跑一組新的圖。
結果第二、三張還是很神秘,我想那個屋頂應該風很大,可是第四張非常可愛~這一切,都在1分鐘內完成。

是不是藝術?

有一位網友鄭秀芳在台灣社群分享自己作品,他透過風格關鍵字來創造九個中國古代傳說怪獸,我很喜歡他為這個創作所下的註解:
由人類企劃主題,提供人工智慧關鍵字生成圖形,由人類後製修圖、美感調整、排版及構成畫面。這是人類與人工智慧的合作系列,任何一方都不能被另一方完全替代,彼此合作,這將是未來。
他認為與其擔心害怕,不如花時間找到能夠維持本質與價值觀的運用方式。
另一位使用者認為自己還是喜歡手繪,覺得這樣更能傳遞自己的情感,但不否認AI生成藝術可以提供原先想不到的呈現方式,畢竟畫畫找圖片參考時,不是每一次都會符合需求,比如視角、色澤、物件或風格之類的,所以對他來說,這些都是一種輔助工具。
你丟關鍵字所生出來的圖像所有權是自己的,所以你可以衍生它或是細化它。
清華大學邱誌勇老師在〈曼諾維奇系列〉Podcast 裡,以Manovich在2019年撰寫的短文〈AI藝術:三個提議〉(Defining AI Arts: Three Proposals)和大家分享,目前的AI生成藝術仍有三個關鍵要素:人類設計的演算法、人類創造的訓練設定、人類選擇他們認為最成功的藝術品,透過網路、演算法、資料集、訓練與認定,才能夠生成作品,因此當時(2019)還無法宣稱這是人工智能藝術,而只是各種人所控制的變項。
但在漫長的機器學習後,或許能夠產製新的、人類意想不到的過程或藝術,而不只是模擬、複製、抽取現實作品/藝術家/風格的再製,這樣就可以真的稱之為AI藝術。
在某個時間區段後,這些分野應會越來越模糊,在每個當下試圖定義什麼是藝術,有點困難,至少在目前,減少創作使用的時間,和取代人類是兩件事。
我還是相信人類總能找到方法,寫出程式規則的人參透本質,是自己的創造;單純運用這個工具產出一堆作品的,回歸個人的創造,但如果把工具玩出新花樣,做出超越這個工具基本值的作品,那又到比較高層次的創造,終歸還是人決定作品的意義。

小結

廣義來說,所有作品都可以被歸在藝術的範疇內,但這個範圍越大,是不是藝術就越不是重點,是否能帶來新的感受、刺激、思考、意義,才是創作者要面對的課題。
以小說為例,在沒有哈利波特這部小說以前,並沒有人懂「斜角巷」意味著什麼,在有了哈利波特以後,魔法仍以各種方式存在或被描述;以畫作為例,在沒有「印象派」以前,就有在意自然光影變化的人,因為歸納或形塑而成現在我們理解的風格。
人們利用AI創作,與人們創造AI創作的規則,兩件事本質上是不同的,但工具本就是會演進的,從筆墨作畫到手繪版,創意才是創作的根源,這個時代的創作者面對的工具更好上手,但是不是更好創作呢?若人們的創造成分少,那麼究竟創作的是AI還是人類?或者這可能是資料庫裡其他人原有的創造?
我想,語言能夠帶來創造,並不是新鮮事,我們使用的語言並不完全基於事實,反而常常想像、建構我們認知的世界,而今語言能夠轉化成圖片,且越來越細緻,是一大躍進,速度可能會越來越快,但,「不存在的語言」需要人們對世間人事物的理解與想像,才可能有真正的創造。
為什麼會看到廣告
avatar-img
24會員
17內容數
一個還沒有在樹下讀書,但以樹友互稱的神秘組織,常常在讀書會中忘記時間的流逝,此專題會分享樹下讀書各棵樹的點滴,以及共讀書籍的書摘、心得。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
玫臻的沙龍 的其他內容
《환승연애》為2021年韓國推出的新型綜藝節目之一,相較過去讓單身男女上節目找尋愛情,《換乘戀愛》找來數對已分手的情侶入住宿舍,並在節目進行中安排與前任/其他對象約會、與前任對話、傳送好感簡訊、逐步公開個人/前任相關資訊等環節,考驗參與者對愛情的想像及決心。
《환승연애》為2021年韓國推出的新型綜藝節目之一,相較過去讓單身男女上節目找尋愛情,《換乘戀愛》找來數對已分手的情侶入住宿舍,並在節目進行中安排與前任/其他對象約會、與前任對話、傳送好感簡訊、逐步公開個人/前任相關資訊等環節,考驗參與者對愛情的想像及決心。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
當生成式藝術及其展覽所耗費的材料被認定為非藝術後,面對「生成式創作是不是藝術?」的質問,或許,該給出否定的答案。可拋棄並無限次地再製的特性,令每次生成出的內容都是廢棄物,都不是藝術,卻也因此,在美術館內起到過往作品無法達到的成效——將藝術從美感中解放出來。
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
AI技術的發展如日中天,但也引發了許多道德與創作者權益的議題。從初期到現在的變化,AI的發展對創作者而言是一大挑戰,無論是哪種AI使用者,AI的出現,不代表我們要放棄思考。
Thumbnail
DALL·E編輯器讓你像使用魔法畫筆一樣,可以在圖片上進行自由變化和創作,現在更可以在ChatGPT plus 中圈選範圍做局部 AI 影片編輯!快來體驗DALL·E的魅力吧!
Thumbnail
坦白說,我不是那種看衰AI發展的悲觀論者。 對我來說,AI要是發展得順利,可以取代人類工作,或許人類才真的可以從名為工作的輪迴當中解放出來也說不定。 但是,但是但是但是,我非常不能接受的,就是那些用AI製圖或寫文就自稱自己是繪師或圖文作家的AI仔。 如果你也是那種AI仔,聽好囉? 畫圖這回事
Thumbnail
文藝創作者透過AI技術進行創作,AI的快速生成能力提供了新的可能性,然而這也對文藝創作者的工作帶來了競爭和挑戰。翻譯工作也面臨AI的威脅,但AI協助創作也提高了作品的品質,對學術界和文藝創作產生了深遠影響。
Thumbnail
這篇文章精選了三款必備的AI繪圖工具,包括MidJourney、DALL·E和Stable Diffusion。這些工具提供了豐富的創作可能性,讓使用者能夠輕鬆地以AI技術創作各種繪畫作品。
Thumbnail
可能包含敏感內容
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
各位創意達人、懶鬼(誤),看這裡看這裡! 今天要分享五個超酷的 AI 工具,讓大家通通變身哆啦A夢,用人工智慧幫你完成各種不可能的任務!
Thumbnail
隨著科技發展,AI技術成就卓越,尤其AI生成器在繪圖、文案和影片創作中蓬勃興起。本文深入介紹領先AI生成器,重點關注MyEdit的免費AI繪圖工具,以及Midjourney、Fotor、Artguru等出色選擇。這些工具讓用戶輕鬆將文字、指令轉換成驚豔的繪畫、影片和文案,為創意提供無盡可能。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
當生成式藝術及其展覽所耗費的材料被認定為非藝術後,面對「生成式創作是不是藝術?」的質問,或許,該給出否定的答案。可拋棄並無限次地再製的特性,令每次生成出的內容都是廢棄物,都不是藝術,卻也因此,在美術館內起到過往作品無法達到的成效——將藝術從美感中解放出來。
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
AI技術的發展如日中天,但也引發了許多道德與創作者權益的議題。從初期到現在的變化,AI的發展對創作者而言是一大挑戰,無論是哪種AI使用者,AI的出現,不代表我們要放棄思考。
Thumbnail
DALL·E編輯器讓你像使用魔法畫筆一樣,可以在圖片上進行自由變化和創作,現在更可以在ChatGPT plus 中圈選範圍做局部 AI 影片編輯!快來體驗DALL·E的魅力吧!
Thumbnail
坦白說,我不是那種看衰AI發展的悲觀論者。 對我來說,AI要是發展得順利,可以取代人類工作,或許人類才真的可以從名為工作的輪迴當中解放出來也說不定。 但是,但是但是但是,我非常不能接受的,就是那些用AI製圖或寫文就自稱自己是繪師或圖文作家的AI仔。 如果你也是那種AI仔,聽好囉? 畫圖這回事
Thumbnail
文藝創作者透過AI技術進行創作,AI的快速生成能力提供了新的可能性,然而這也對文藝創作者的工作帶來了競爭和挑戰。翻譯工作也面臨AI的威脅,但AI協助創作也提高了作品的品質,對學術界和文藝創作產生了深遠影響。
Thumbnail
這篇文章精選了三款必備的AI繪圖工具,包括MidJourney、DALL·E和Stable Diffusion。這些工具提供了豐富的創作可能性,讓使用者能夠輕鬆地以AI技術創作各種繪畫作品。
Thumbnail
可能包含敏感內容
這篇文章介紹了Bing產生的圖片在唯美氣質風方面的表現,並探討了DALL E-3在語言解析和生成圖方面的強大能力。文章展望了未來AI在繪圖方面的潛力和發展方向。
Thumbnail
各位創意達人、懶鬼(誤),看這裡看這裡! 今天要分享五個超酷的 AI 工具,讓大家通通變身哆啦A夢,用人工智慧幫你完成各種不可能的任務!
Thumbnail
隨著科技發展,AI技術成就卓越,尤其AI生成器在繪圖、文案和影片創作中蓬勃興起。本文深入介紹領先AI生成器,重點關注MyEdit的免費AI繪圖工具,以及Midjourney、Fotor、Artguru等出色選擇。這些工具讓用戶輕鬆將文字、指令轉換成驚豔的繪畫、影片和文案,為創意提供無盡可能。