超進化的文字書寫？一些關於Midjourney的議題想像

更新於 2022/11/21發佈於 2022/06/17閱讀時間約 13 分鐘

Prompt：cinematic robot dog

最近Google工程師與AI的對話討論似乎剛好與Midjourney（以下簡稱MJ）的生成藝術（Generative Art）有了相關的連結，我其實剛接觸 MJ不久，對於它理解文字描述的能力確實讓我大為驚訝，即使用我的破爛英文與它溝通，它也都能回饋給我描述裡至少七成的具象意義，它的資料學習能力雖然是奠基在Google的搜尋引擎技術，令我好奇的是它如何把我給它的「符號具」與「符號義」用影像處理引擎「巧妙的揉捏」在一起？它又是如何理解是a跟b要合成在一起，而不是選擇ａ跟ｃ？而且經過揉捏之後所呈現的「藝術性」確實有它一定的水準。

「只要把你想的畫面跟MJ說，它就會幫你算出來。」也已經不是未來世界的場景想像，這件事現在已經真真實實來到我們的生活裡面。

Midjourney是一種透過純文字描述來描繪圖像的應用，目前運作於Discord伺服器，透過封閉的邀請制成為使用帳戶，免費用戶有大約30張圖可以運算（又稱為「算力」）個人付費用戶有10美金，30美金的方案，企業用戶則有提供企業版的使用選項。

就像Photoshop與數位設備問世之後，許多暗房作業也跟著已經走入歷史，所有的「懷舊」與「復刻」都可以建立在現代科技的數位製程當中，但「手工藝術」的價值，不也在這樣的缺稀市場裡讓世人重新檢視它的保存價值嗎？繼續堅持暗房沖片的人也大有人在呢！MJ的出現對於許多影像工作者來說，相信都會是一個腦內衝擊，雖然寫完這篇文章前，它目前仍然是「Beta版」，但卻也已經引領出許多的「未來議題」，我使用MJ的時間不夠長，我只能簡短的在這裡邊記錄下我自己的觀察與想法。

MJ的Prompt文字指令列，所有的圖像由此而生

被取代的擔憂？設計師要失業了嗎？

或許這是在未來的許多憂慮裡面首要的排行，特別是對於許多辛勞的影像工作者與設計師來說，畢竟從工業革命以來，確實也因著鋼鐵與戰爭工業的發展，讓許多的「人力活」逐漸走進黃昏，但對於「MJ會不會取代設計師?」的憂慮，我個人還是覺得：

「這確實是可以思考的事情，但其實還有一大段距離，或是根本就還太早。」

我認為MJ在「人機合作」的範疇有非常好的表現，大家很常說的「AI」，其實還有很多種層次，讓我想到最近看的一部電影「人造意識」，那種AI等級才是人類開始要擔心被取代的時候，所以～目前都還安啦。

如同「科技始終來自於人性」的想法，個人在觀察烘豆機的設計時特別有感觸，現在愈來愈多設備強調具有「一鍵複製」的功能，一個按鈕下去就可以複製上一次的烘焙曲線，可以維持烘焙的風味，對工作者來說節省了許多的時間成本，但烘豆師會不會被取代呢？我想應該也不至於，一個烘焙曲線要重現不難，但天氣的溫度濕度以及大氣壓力隨時在改變，同樣的烘焙曲線除了不能對應在不同的咖啡生豆之外，同樣的也不能在瞬息萬變的天候條件下進行，許多細節仍然需要烘豆師的臨場經驗來進行火力跟進氣的微調，所以曲線雖然是順利重現了，但烘焙出來的風味卻會有天壤之別。

其實MJ也是一樣，它以獨家的圖像生成技術，透過資料庫的運算「揉捏」出我們的想像，但「輸入」的部分終究還是人，使用者要給它一個可以理解的語彙片段（特別是英語的語彙能力要非常豐富）它才能正確地重組一個它能理解的世界（即便有時候還會相差了十萬八千里）即便這還是有一點「運氣」的因素。

MJ的使用者後台介面

「算圖」與「繪圖」我還是習慣把這兩種創作活動歸類在不同的領域，透過MJ來「算圖」確實可以有助於高效取得溝通思考的元素，但僅是「概念」的呈現，我發覺MJ在圖像的細節上還是會有一點點小瑕疵，特別是人像成形的部分，但這個工具確實有助於設計師與客戶之間進行更精準的概念溝通，而最後的圖像成形，這個重責大任還是必須由有經驗的設計師或藝術家一肩扛起，畢竟「繪圖」還是人類的內在活動與文化吸納的軌跡，目前還是有其難以取代的地位。

所以我認為要「完全取代」設計師應該還有一大段距離，但是在流程改善的部分，MJ確實可以幫上很大的忙，相信會有愈來愈多影像工作者善加利用這個科技帶來的方便。

也許有些（慣？）老闆或（澳？）客戶可能會說，「我做圖全部都用這個就好了啊！為什麼還要我花這麼多錢？」那．．．就只好請他們自己算圖了，其實要適度的下關鍵字才能算出一張漂亮的圖，這也是一段非常縝密的心理活動呢！所以設計師不僅不會失業，甚至未來還可能會出現一種更專業的「圖像關鍵字設計師」的行業也不一定呢！

法律的議題：商業使用與版權

我不是法律專長，只是在工作上常常也必須處理公司使用影音或是圖庫商業用途的疑慮，至少有一些心得感想可以分享，只能說數位化的法規思考在數位時代確實有許多的眉角，過去的許多法規其實也跟不上數位發展的速度，MJ的應用又讓各種界線更為「燒腦」。

商業的使用

首先是MJ運算成像的方式，主要是透過關鍵字的條件在網路上搜尋可能的圖像，接著再判斷使用者的指令而「揉捏成形」，這在商業使用或是版權歸屬上產生許多的「灰色地帶」，目前也尚未有法律的定論，但MJ官方宣告也一翻兩瞪眼寫得一清二楚，關於它的商業使用規定如下：

MJ官方的商業使用說明

重點就是，只要不牴觸這兩個條件，就可以商業使用。

如果你任職的公司年收入有超過100萬美金，那麼就必須購買企業版才可以用於商業用途。
如果你的影像運用在區塊鍊技術，每個月獲利超過兩萬美金的部分，必須支付20%的專利費用。

非付費使用者，當然就不能將產出用於商業販售，但能使用於「創用CC授權條款」（Creative Commons license）當中的非營利（Noncommercial）使用，可以自由複製、散布、展示，不作為商業用途即可。

權利的歸屬

這或許是灰色地帶比較多需要討論的部分，但MJ官方也寫得更清楚了，不管你的關鍵字用的多麼豐盛多麼精確多麼的具有詩意，所有一切經由MJ產出的圖像資產，MJ都擁有所有權。(2022的最新規則已經將所有權還給創作者了)

All content generated by the Services, including Assets, is owned by Midjourney.（節錄自MJ官方權利說明）

比較可以思考的是，在這整個「人機合作」的圖像生成的過程裡，使用者透過想像輸入關鍵字、程式設計師寫出運算機器人程式、雲端電腦則是負責運算能量，那麼這個「共創作品」到底誰可以主張擁有它呢？

MJ官方的著作歸屬說明

個人覺得這個「模糊的奇點」，應該可以是整個過程裡「誰出比較多力」的思辨，「使用者出一張嘴，然後運算機器人拼命運算才得到結果！」你要這樣說也是可以，但是你說「沒有使用者下適當的指令跟參數，運算機器人也算不出這麼美麗的圖！」好像也是說得過去...

最後到底是誰創作的作品，這個好像也很難有定見，主機廠商也可以說，「沒有我的運算資源，就算你有一張嘴、100％完美的程式，也是算不出來！」如果是這樣...電力公司是否應該也可以跳出來說話了呢？

但MJ的宣示主張，表示全部都是屬於於他的，大家也沒話說。

另一個還可以討論的，就是MJ在成像的過程裡，或許有時候也會「部分揉捏」到一些具有版權著作的影像資訊，我也發現有些成像作品裡會有一些看似「簽名落款」的痕跡，即便無法清楚辨識簽名，但應該就是隨機運算後從其他作品「揉捏而來」，如果這個落款標記是已列入公共財的藝術創作者倒是無可厚非，但若不是這樣，或許在使用上就會有著作權與使用的疑慮，即便是在符合MJ宣告的商業應用說明之下，但這個模糊狀況目前似乎是無解，端看使用者的最終決定。

複製與再現

運作於Discord裡的MJ是一個開放的空間，如果沒有購買私密方案，任何人都可以看到你運算時所使用的關鍵字，那麼在經過你無數沒日沒夜的試誤學習，並花費了無數的算圖額度後，最後所得到的一張精美圖片，關鍵字與運算參數必定是經過千錘百鍊的結果，但旁觀者能夠輕易地複製並製圖，雖然呈現結果可能不盡相同，但複製別人的關鍵字並使用於製圖，這樣會構成侵權嗎？如果原創者提告是否又會成立呢？

MJ的Community Feed，裡面可以看到許多優秀的算圖作品，所有的關鍵字指令（Prompt）使用者都可以自由複製再行製圖。

或許這就像是寫論文或是文章時，「引用」必然是一件非常嚴肅的事情，但在MJ的世界裡，風格的複製與使用是非常容易的，儘管MJ目前仍是「Beta測試版」，分享與共創仍是它設立的精神，就如同它獨特的邀請制度一樣，希望透過人際的推廣，鎖定獨特的創作者族群，或許未來成為正式版之後的MJ，在複製以及使用的這一部分，會有更特殊的使用措施吧。

法規要追上數位領域的前進，目前還有待許多法律領域的專業人士熱心擘劃。

未來的想像與擔憂

有一天你的孩子問你，甚麼是「快樂的想像」呢?聰明的爸爸媽媽必定能夠如實的描述出孩子的回答，除了透過Siri之外，類似MJ這樣的輔助工具也會是一個選項之一，如果假設孩子有一定程度的英文能力（MJ目前還是以英文語句有較高的精準度）可以請孩子自行架構他對「快樂的想像是甚麼？」也許可以是一個具體的物件、可以是一個抽象的名詞、或是一種他喜歡的顏色等等，我認為這是一個還不錯的共創互動工具，我相信MJ未來會有一個視覺介面可以操作各種屬性權重。

Prompt：the imagine of happiness

輸入「the imagine of happiness」之後，MJ出現了四張參考圖，用右下的圖片再行延伸，可再獲得四張相關圖，若還想深掘，可以繼續延伸下去。

Prompt：the imagine of happiness

你的廣告客戶與您接洽，雖然客戶對於他自己的產品有充分的信心，也了解他的購買族群在哪裡，客戶想要一個視覺上的溝通策略，它只說產品定位是「寂寞時刻的最佳陪伴」這時候你的腦海裡自然會開始出現許多的「寂寞時刻」想像，當然你可以口述讓您的客戶了解你的想法，或是搜尋相關的圖片幫助理解，或是花時間手繪一張示意圖也不錯，但你手邊還有三個案子明天就要結案，可能尚無空檔處裡示意圖的需求，這時候你想到了MJ，於是試著把客戶的主要需求輸入看看，也許會有甚麼幫助的idea也不一定。

「The best companion for lonely moments」並沒有加任何的參數，兩分鐘後，電腦也慢慢傳遞最後算圖的結果。

Prompt：The best companion for lonely moments

嗯，上面兩張生成圖好像也還不錯，色調風格跟情境以及產品的位置，似乎也都蠻符合設計的原則，因著這兩張圖的發想下探深掘，啟發了各種情境設定，於是你整理之後，附帶你的概念說明先讓客戶進行參考等候回饋，於是你就有空檔可以繼續專注在手邊的那三個案子。

當然還有很多職類或許都可以使用這種運算的技術，或許也可以成為心理諮商或是心理測驗，甚至藝術治療的輔助工具，我以正面的態度來觀察這項科技的發展，或許就傳播學來說，這對於「建構世界觀」可能會有一定程度的挾制，因為你輸入的最後結果，都是「經由MJ認定重組」的物件，而你也不疑有它，不知不覺就會依照MJ的脈絡進行思考，也許就某部分來說對人類創意力是有傷害的，就像媒體它具有建構議題（Agenda Setting）的力量，它可以建構出一個「你以為世界就是如此的」虛幻現實，這是創作者必須謹慎與小心的。

小結論

有時候，個人內在的想像基模（Schema）與他／她／牠個人的文化成長背景或是原生家庭會產生很大的差異，這一點在Star Trek裡各種外星種族的個別特性最為明顯，例如瓦肯人的文化背景裡，他們認為「想念」這件情感基模無助於社會進化，自然地就摒除「想念」這件事情的優先順序。

你有時候會發現，當你下了關鍵詞之後，卻算出一個毫不相干的結果，我想MJ自己也還在學習階段，當全世界的人都不斷地為它提供基模的情境，它的參照就會更豐富更正確，這對我們生活與工作的幫助應該就會愈來愈強大。（這一部分我樂觀看待）

Prompt：the imagine of happiness

會不會取代人類？這件事我想應該還是在「光年之遙」，電影「人造意識」探討的就是人工智慧到底何時算「完全成功」？電影的結局很諷刺的結論就是「當它像人類一樣自私的時候」人工智慧就成功了，MJ現在應該只是頂多讓你看到「它認為的事情」，但要它像「人造意識」裡面懂得自我思考並絕處求生的機器人，可能還是百年之後吧。

MJ作為一個輔助創作與想像力的溝通工具，我覺得是非常適合的，創作在人類的心智活動裡仍有無法取代的價值，電腦能模仿、複製、重製或再現應該是科技發展下再自然也不過的事，其實也毋須恐慌，要是那天MJ機器人主動訊息你「你今天看起來很累呢！我現在幫你畫一張令你精神振奮的圖片吧！」

這時候，或許才是人類要擔憂的時候呢！

如果你對Midjourney有興趣，可以加入《Midjourney AI 台灣社群》

《如果我的文章對你有任何的幫助或是啟發，非常歡迎你持續追蹤這裡的專題，或是分享給你的朋友，也感謝你的耐心閱讀。》

祝你順心 by 福妹可啡工作室