早在 2022/12 ChatGPT 公布後,已有人開始思考:人們之所以難靠 AI 生成技術產生需要的圖像,在於 AI 邏輯異於人類思考模式。既然現在大語言模型能與人對話、完成自然語言交辦的簡單任務,
讓同為人工智慧的 GPT 替我們想提示詞,不就能讓 SD 產出符合需求的圖片?
初次看見這種說法,我並未產生多大興趣,當時若不親自進場繪製並圖生圖,提示詞幾乎可說是控制圖像生成符合需求的最後韁繩。這種唯一可控(?)的東西,還要推給生成式模型文字接龍,那人類到底在生成這張 AI 圖的過程中貢獻了啥?
當然人無法 24 小時維持靈活思緒,缺乏靈感需要隨機性相助時,其實 SD 有 Dynamic Prompts 工具能寫組合隨機元素的提示,搭配通配符 Wildcard 可以擴充自己電腦上的詞庫,拓展動態提示抽取詞庫中詞彙、做排列組合的可能性。儘管模型照不照提示跑,終究要看當初學了什麼資料,其他用戶檢驗過的詞,應該比語言模型靠機率推算出來的詞更有可信度?
但我沒靈感就沒使用 SD 的理由,並不需要靠動態提示找點子,直到隔年 4 月要替載下來的好多角色 LoRA 做參考圖......
直到這時,我才意識到問 ChatGPT 提示詞的真義:
人的時間寶貴,所以不要花時間動腦啊。
用 GPT 並非要幫自己完成什麼曠世鉅作,只是要把不重要的步驟省略掉而已。儘管在創作中,把發想過程略過也挺奇葩
最後我嘗試折衷的選擇:將自己試過、喜歡且產出穩定的提示給 GPT 當範例,請它依據我的架構,改寫我另一段提示,除提示外其他設定相同的情況下,將我寫的和 AI 寫的比較,看誰更有特色。
我參照網路說法,準備三個提示讓 GPT 記住,然後提出一個想要的情景,讓 AI 參考範例寫 prompt 。人物選定淺上藤乃 LoRA,由於她在手遊 FGO 某次夏日活動作為幽靈少女短暫出場,就發想人家在廢棄、積水的教室廢墟內徘徊的場景。
我的提示出圖結果:


GPT 改寫的提示出圖結果:


因為人家是幽靈少女,所以生成鬼片場景了?????
我檢查兩邊提示詞,發現 GPT 加入了情緒相關的詞彙,人物表情、整體風格,就被「恐懼」、「孤獨」、「沮喪」、「絕望」、「悲傷」等形容詞帶走了,若非 AnythingV3 為二次元模型,加上角色 LoRA 調和,GPT 提示生成的圖可能往驚悚方向呈現 :

沒加上人物 LoRA 的呈現
要說不好嗎 ? 至少整體風格與色調具備一致性,需要多幾個案例測試。
接著是手遊蔚藍檔案角色陸八魔亞瑠 LoRA,曾在沙漠化的阿拜多斯自治區內大展身手,但光靠我的提示,很難讓她旁邊出現各式軍武 :


連生成這類視角都挺難,若尺寸設定橫向,往往只會生成她的上半身得意臉
GPT 改寫的提示出圖結果:


GPT 利用「落日」、「沙塵暴」提示詞,使畫面看起來沒那麼色澤鮮明,更符合實際情景。但加入的「軍營」、「廢墟」、「戰爭場景」提示詞通通沒出現,只填充字數降低人物在畫面中的比重而已。或許是 LoRA 的干涉導致其他要素難以出現 ? 人物敘述直接用 1girl 試試,我寫的提示出圖結果 :

人物很容易出現,但坦克很少見,軍事設施更是幾乎沒有
GPT 改寫的提示出圖結果:

坦克權重高達 1.5 而必出現,結果 AI 寫的人物提示詞雖然不少,被坦克壓過去了
既然前面是沙漠,最後一站就爬雪山,日本漫畫《滑頭鬼之孫》裡的雪女角色及川冰麗 LoRA ,搭配喜馬拉雅的雪地佛塔景觀應該挺有詩意,所以我的提示出圖結果 :


佛塔幾乎沒出現,好在這張圖人物右側遠景有些
GPT 改寫的提示出圖結果:


佛塔又是大方的權重1.5,所以畫面中看得到
要說誰的 prompt 比較好......終究見仁見智 :
- 給重點提示詞 1.5 權重的豪邁或許值得借鏡,但這重量足夠把某些細節壓沒了。
- 輸入情緒形容詞可更進一步影響圖片氛圍,但可能同時影響場景、色調、人物表情,若我希望用提示分別設定人物與場景,情緒詞彙反而是難以控制的因素。
- 同樣是人工智慧,GPT 生成的提示詞,圖像生成模型未必能理解並產出相應元素。
所以人工智慧寫的提示或許可以生成令人目光一亮的單圖,但如果想把這種風格拓展為一系列圖片、進行特定細節微調,我認為後續修飾仍難以單獨依賴 GPT。
更重要的是我替角色 LoRA 做參考圖的目的,是為了找到該 LoRA 能在自己筆電上生成、最穩定且還算好看的用法。GPT 寫的提示有效性依然可能受各模型先天差異影響,把它納入我的工作流程,豈不是除了磨合 LoRA 與 Checkpoint,還得測試 Checkpoint 與 GPT 提示的差距 ? 導入 AI 結果替我多添了一個流程 ?
總該回歸初心,而我的初心是沒想法大不了關機。
也只有想傳遞什麼,才有動力繼續嘗試創作,
既然選擇將時間用在這,想法在選擇前早已完成了。
管他正邪,只問自心。
心不屈服的話,再遠的 prompt 你也想得到。
何必照抄 GPT?你能寫成任何風格。