機裡機外，prompt獨尊【2022/10/2~10/3】

2024/10/01 更新2024/10/01 發佈閱讀 4 分鐘

安裝 SD 後的一週，當我有空嘗試時，都在尋找跑更順的辦法。反正 Reddit 或 Github 上怎麼講就照做、--medvram/--lowvram/--xformers 全加，最後總算控制在一張 512x768 的圖一分多鐘能跑完，而且同時用電腦做自己的事不會卡頓，儘管仍無法一次生成多張。

但 Stable Diffusion 能做的才不止文生圖，不信我將圖片 Hires. fix 兩倍給你看——

OutOfMemoryError: CUDA out of memory.

好吧，在這裡只能文生圖。

都搞了這麼大花樣，我自然懶得再開繪圖工具動筆，所以研究提示詞成了此階段重要（且唯一能做？）的任務。自 ChatGPT 橫空出世後一度成為話題的 prompt engineering 提示工程，在文生圖這裡挺早就在討論了，因為使用者不清楚模型裡學習過什麼資料，誠如人生會背叛你朋友會欺瞞你但數學不會就是不會，模型沒學過的詞彙，提示寫得天花亂墜也生不出來，頂多視描述的細節程度趨近你的敘述。

但如果真寫了一長串，又是別的事了，以後再提。

2022 年 10 月初那幾天，是漫遊於大觀園而未必知其所以然的過程。每當輸入文字敘述、按下啟動圖示，不免想著生成原理與資料來源都不知曉的自己，反覆嘗試摸索出的良好範例，究竟可視為下次溝通的準則，抑或只是無數變量碰巧湊合成的結果？

至少我找到專門生成類似電影海報/雜誌封面風格的提示詞，

如此就能盡情探索各種主題的演繹，其中不乏搞怪的 :

「洛聖都國際機場警匪追逐」

「1920年代柴油龐克風格的中國」

「加州獨立戰爭」

屬於歷史事件的 :

「車諾比核洩漏」

「卡普倫山登山纜車火災事故」

「珍珠港事件」

沿用其他作品標題 :

「死界魔霧都市•倫敦」

「仿生人會夢見電子羊嗎？」

甚至用一句話簡介來生成電影海報 :

「男子試圖劫持空軍一號」(空軍一號)

「一群殺手在列車內打架」(子彈列車)

並非每位用戶電腦都裝 4090 顯卡，需短時間等待結果的 AI 圖像生成某方面來說，把手遊抽卡轉蛋核心機制發揮得淋漓盡致。透過輸入敘述/等待輸出賦予使用者參與&期待感、每次都有不同產出形成趣味性，以及偶爾出現真的很不錯的圖片，帶來彷彿抽到 SSR 的高峰經驗，為了抽 AI 生成圖片我好幾天沒空登入手遊了~

但乍看驚奇的構圖，細看下去會發現不僅細節、根本整張圖都要修改，創作者想商用會先 PS 到手軟的程度。以及當圖像尺寸過長過短，演算法在空間內塞入過多資訊/給一個主題過少空間，產生的肢體錯誤與面部恐怖谷效應，把我對 AI 生成逼真人物圖像的興趣與耐性摧殘殆盡，以致如今在 FB 看到底下很多人按讚留言的 AI 生成寫實美女圖，我只會呵呵然後直接滑過去。

引入新技術勢必有條學習曲線，想看養眼圖片，直接追蹤那些高手的粉專並參與互動是最省成本的方式，否則繪圖風格百百種，只專注讓 AI 產出更逼真像照片的圖，是否有點掛一漏萬的可惜?

於是我開始嘗試讓 SD 模型生成二次元風格角色，恐怖谷效應照理不會比真人嚴重。

結果該怎麼形容...........................