安裝 SD 後的一週,當我有空嘗試時,都在尋找跑更順的辦法。反正 Reddit 或 Github 上怎麼講就照做、--medvram/--lowvram/--xformers 全加,最後總算控制在一張 512x768 的圖一分多鐘能跑完,而且同時用電腦做自己的事不會卡頓,儘管仍無法一次生成多張。
但 Stable Diffusion 能做的才不止文生圖,不信我將圖片 Hires. fix 兩倍給你看——
OutOfMemoryError: CUDA out of memory.
好吧,在這裡只能文生圖。
都搞了這麼大花樣,我自然懶得再開繪圖工具動筆,所以研究提示詞成了此階段重要(且唯一能做?)的任務。自 ChatGPT 橫空出世後一度成為話題的 prompt engineering 提示工程,在文生圖這裡挺早就在討論了,因為使用者不清楚模型裡學習過什麼資料,誠如人生會背叛你朋友會欺瞞你但數學不會就是不會,模型沒學過的詞彙,提示寫得天花亂墜也生不出來,頂多視描述的細節程度趨近你的敘述。
但如果真寫了一長串,又是別的事了,以後再提。
2022 年 10 月初那幾天,是漫遊於大觀園而未必知其所以然的過程。每當輸入文字敘述、按下啟動圖示,不免想著生成原理與資料來源都不知曉的自己,反覆嘗試摸索出的良好範例,究竟可視為下次溝通的準則,抑或只是無數變量碰巧湊合成的結果?
至少我找到專門生成類似電影海報/雜誌封面風格的提示詞,
如此就能盡情探索各種主題的演繹,其中不乏搞怪的 :
屬於歷史事件的 :
沿用其他作品標題 :
甚至用一句話簡介來生成電影海報 :
並非每位用戶電腦都裝 4090 顯卡,需短時間等待結果的 AI 圖像生成某方面來說,把手遊抽卡轉蛋核心機制發揮得淋漓盡致。透過輸入敘述/等待輸出賦予使用者參與&期待感、每次都有不同產出形成趣味性,以及偶爾出現真的很不錯的圖片,帶來彷彿抽到 SSR 的高峰經驗,為了抽 AI 生成圖片我好幾天沒空登入手遊了~
但乍看驚奇的構圖,細看下去會發現不僅細節、根本整張圖都要修改,創作者想商用會先 PS 到手軟的程度。以及當圖像尺寸過長過短,演算法在空間內塞入過多資訊/給一個主題過少空間,產生的肢體錯誤與面部恐怖谷效應,把我對 AI 生成逼真人物圖像的興趣與耐性摧殘殆盡,以致如今在 FB 看到底下很多人按讚留言的 AI 生成寫實美女圖,我只會呵呵然後直接滑過去。
引入新技術勢必有條學習曲線,想看養眼圖片,直接追蹤那些高手的粉專並參與互動是最省成本的方式,否則繪圖風格百百種,只專注讓 AI 產出更逼真像照片的圖,是否有點掛一漏萬的可惜?
於是我開始嘗試讓 SD 模型生成二次元風格角色,恐怖谷效應照理不會比真人嚴重。
結果該怎麼形容...........................
......衣著華麗、帶著點朦朧感的濃妝 Cosplay 人偶?
豈不是更嚴重了嗎???