ChatGPT 提供了圖像生成提示詞的發想建議,但追根究底,如何確認提示詞在圖裡確實有發揮作用?
這就要介紹 DAAM (Diffusion Attentive Attribution Maps),這項 2022/12/4 出現的技術。
Stable Diffusion 參考提示詞並轉化為空間中的像素點,我們可以想像為一位畫家手上擁有各色顏料(提示詞),依照經驗將這些原料繪製在畫布上。顏料必然會暈染、交疊,而 DAAM 有辦法在旁解讀整個繪製過程,當圖畫完成時, DAAM 可以辨別這些顏料在哪裡用比較多、用比較少,並以熱圖顯示。
基於這項特性,用戶能透過視覺化,直觀檢驗自己寫的提示如何影響圖像。看起來艱深的提示詞,可能熱圖上一片藍紫色,表示根本沒發揮作用;看起來精確的提示詞,可能集中在熱圖上其他區域,表示產生的影響與預期有差異。
如果嘗試異想天開的場景:少年少女碰到廢棄醫院外的飛碟或廢棄鐵軌上的靈體,DAAM 能替我決定提示嗎......


剛開始測試,醫院或鐵軌對畫面元素影響較大,提示詞只寫 UFO 不一定會出現,要寫 UFO in the sky 才能穩定出現。
但 AI 能穩定生成浮空幽浮時,地景空間又被壓縮了,導致搭配鐵軌的除了雜草樹木外,頂多是城市遠景。我得添加具體敘述如 broken windows, messy wall 維持畫面中建築體存在的比例:


即使如此畫面也很精細,從熱圖可發現對廢棄建築的敘述,多少影響幽浮的表面材質。我想產出的並非這種畫風,決定大膽刪除所有品質提示詞、負面提示詞,讓 AI 只依照我輸入的元素,發想真正符合情境的圖像:

刪掉負面提示詞後,產生的廢墟感更符合我的想法,

我也增加了幾個風格的提示詞:
- animation style:想讓 AI 產生呈現日本動漫般的整體畫風
- Flat Design:廣泛應用於現今 3C 產品視覺化介面的 UI 設計風格,想藉此讓 AI 出圖避免色澤過多層次
- lines:猜測 Flat Design 可能產生無輪廓線的畫風,藉此要求 AI 保留線條
這些提示詞成效如何?

前兩項全部影響到畫面邊角和天空去了?! lines 只影響到鐵軌,玩雙關語的梗嗎???
果然隨意猜測的提示詞未必有效,這就是為啥我對 GPT 生成提示依然抱持待驗證的態度。仔細一想,需要日本動漫風格、需要扁平的著色方式、又要保留輪廓線......
我想到了靠 AI 生成特定畫風的殺手鐧做法,真麻煩啊我本來不想使用這招的──
提示詞「by Takashi Murakami」。
村上隆(Takashi Murakami)是推動超扁平運動(Superflat)的日本藝術家,此風格受日本電玩、動漫、御宅族文化影響,形象扁平像玩偶,豪放又色彩繽紛,同時影射日本文化內涵,正是前面三種提示詞的集合體。 既然如此,使用藝術家名稱有效嗎?

相較前面圖片,幽浮邊緣的白邊,使整體圖像更接近於插畫風格,尤其左圖中右側區域彷彿藍圖的線稿,顯示 AI 生成確實受到藝術家名稱提示影響。但我不要我覺得,我要 DAAM 覺得:

結果影響那部分區域的,還是 lines 啊
整張圖裡最有村上隆風格的,只有幽浮眼睛一小塊區域喔XD
隨著持續產出,可發現「村上隆」提示詞穩定影響幽浮區域,而廢棄醫院、鐵軌,依然受到描述環境的提示詞如 broken windows, messy wall 影響明顯,或許與其塞一堆藝術家姓名提示詞來干預畫風,寫清楚自己想要 AI 生成的元素細節更有效。
所以我決定刪除到目前為止沒有明確作用的提示詞 animation style:

順便一提,刪掉某個提示之後,如果繼續讓 DAAM 檢測,檢測不到的提示詞便不會有熱圖產生,呈現下圖效果:

......Flat Design 也沒啥用,加入超扁平(Superflat)好了,然後添加更多藝術風格,以求降低圖像細節、提高顏色鮮豔程度:

至此已達到我想要的畫風了,陰暗廢墟背景之上漂浮著鮮豔浮誇幽浮、整體擁有清晰的輪廓線:

繼續增減提示詞權重,讓原本幽浮上比較明顯的風格,擴展到畫面整體。

然而全部建立在村上隆藝術風格的話,我的行為只是透過關鍵字的排列組合測試,在電腦上「重現」藝術家風格而缺乏創造,倘若 Takashi Murakami 提示詞的影響性最大,其他提示詞存在的用意為何?我的嘗試還有意義嗎?
因此出圖風格大致穩定後,我刪掉藝術家姓名,看看剩下的提示詞會產生什麼效果:

雖然幽浮與建築體幾乎混為一體,但整體色調竟然意外和諧。輪廓線不算有被強調,但那些歪七扭八、色澤鮮明的建築物,彷彿迪士尼頻道會播的動畫背景。

只要將圖像尺寸改為直式,就能把天上幽浮與地面的建物分開了 :

背景已穩定,再來是放入人物,我簡單地輸入1girl, 1boy, student uniform, full body, walking:

......原來要在 SD1.5 產出兩人並肩走,比調整畫風還難?
雖然上面 6 張包含 2 張雙人圖像,實際上要跑個 20 多張才能出現一、兩張,而且即便提示寫了要認人物看鏡頭,依然容易出現背後視角、人物看幽浮的構圖。最後是靠長寬 768x512 ,橫向尺寸設定,提高雙人出現的機率,才獲得下圖:

好可愛,到底是幽浮還是外星人啊
很顯然,一旦加入人物提示詞,背景又恢復較為寫實的風格,因此我得切換其它模型,尋找我好不容易嘗試出來的背景畫風:


所以我後來很少用 DAAM,Lora 出現後找到自己要的風格/人物/物件,載下來即插即用就好了。
運用 DAAM 尋找提示詞與圖像的關聯性,變成了既非感性創作、亦非理性研究的遊戲方式。這時候 AI 產圖依舊存在隨機性挑戰,而我沒有從類神經網路演算法優化的才智、沒有用繪圖軟體塗改修飾的巧手、沒有純為好玩花錢訂閱 Midjourney 的爽快。DAAM 彷彿提供了一條中庸之道,能迅速幫你了解提示怎麼寫,但你得主動發現更多才有用,村上隆、扁平化設計、普普藝術......
既然 AI 訓練資源來自人類歷史的積累,
對萬事萬物保持學習的心,才能明瞭如何使用 AI 更有效率。