2024-10-01|閱讀時間 ‧ 約 0 分鐘

機裡機外,prompt獨尊【2022/10/2~10/3】

安裝 SD 後的一週,當我有空嘗試時,都在尋找跑更順的辦法。反正 Reddit 或 Github 上怎麼講就照做、--medvram/--lowvram/--xformers 全加,最後總算控制在一張 512x768 的圖一分多鐘能跑完,而且同時用電腦做自己的事不會卡頓,儘管仍無法一次生成多張。


但 Stable Diffusion 能做的才不止文生圖,不信我將圖片 Hires. fix 兩倍給你看——


OutOfMemoryError: CUDA out of memory.


好吧,在這裡只能文生圖。


都搞了這麼大花樣,我自然懶得再開繪圖工具動筆,所以研究提示詞成了此階段重要(且唯一能做?)的任務。自 ChatGPT 橫空出世後一度成為話題的 prompt engineering 提示工程,在文生圖這裡挺早就在討論了,因為使用者不清楚模型裡學習過什麼資料,誠如人生會背叛你朋友會欺瞞你但數學不會就是不會,模型沒學過的詞彙,提示寫得天花亂墜也生不出來,頂多視描述的細節程度趨近你的敘述。


但如果真寫了一長串,又是別的事了,以後再提。


2022 年 10 月初那幾天,是漫遊於大觀園而未必知其所以然的過程。每當輸入文字敘述、按下啟動圖示,不免想著生成原理與資料來源都不知曉的自己,反覆嘗試摸索出的良好範例,究竟可視為下次溝通的準則,抑或只是無數變量碰巧湊合成的結果?


至少我找到專門生成類似電影海報/雜誌封面風格的提示詞,

如此就能盡情探索各種主題的演繹,其中不乏搞怪的 :

「洛聖都國際機場警匪追逐」


「1920年代柴油龐克風格的中國」


「加州獨立戰爭」


屬於歷史事件的 :

「車諾比核洩漏」

「卡普倫山登山纜車火災事故」

「珍珠港事件」


沿用其他作品標題 :

「死界魔霧都市•倫敦」

「仿生人會夢見電子羊嗎?」


甚至用一句話簡介來生成電影海報 :

「男子試圖劫持空軍一號」(空軍一號)

「一群殺手在列車內打架」(子彈列車)


並非每位用戶電腦都裝 4090 顯卡,需短時間等待結果的 AI 圖像生成某方面來說,把手遊抽卡轉蛋核心機制發揮得淋漓盡致。透過輸入敘述/等待輸出賦予使用者參與&期待感、每次都有不同產出形成趣味性,以及偶爾出現真的很不錯的圖片,帶來彷彿抽到 SSR 的高峰經驗,為了抽 AI 生成圖片我好幾天沒空登入手遊了~


但乍看驚奇的構圖,細看下去會發現不僅細節、根本整張圖都要修改,創作者想商用會先 PS 到手軟的程度。以及當圖像尺寸過長過短,演算法在空間內塞入過多資訊/給一個主題過少空間,產生的肢體錯誤與面部恐怖谷效應,把我對 AI 生成逼真人物圖像的興趣與耐性摧殘殆盡,以致如今在 FB 看到底下很多人按讚留言的 AI 生成寫實美女圖,我只會呵呵然後直接滑過去。

引入新技術勢必有條學習曲線,想看養眼圖片,直接追蹤那些高手的粉專並參與互動是最省成本的方式,否則繪圖風格百百種,只專注讓 AI 產出更逼真像照片的圖,是否有點掛一漏萬的可惜?


於是我開始嘗試讓 SD 模型生成二次元風格角色,恐怖谷效應照理不會比真人嚴重。

結果該怎麼形容...........................


衣服細節增加,使畫面占比上衣著增加而臉部縮小,基本加重了五官模糊的情況


......衣著華麗、帶著點朦朧感的濃妝 Cosplay 人偶?


豈不是更嚴重了嗎???


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.