補記：DAN DA DAAM！

2025/04/11 更新2025/04/11 發佈閱讀 6 分鐘

ChatGPT 提供了圖像生成提示詞的發想建議，但追根究底，如何確認提示詞在圖裡確實有發揮作用？

這就要介紹 DAAM (Diffusion Attentive Attribution Maps)，這項 2022/12/4 出現的技術。

Stable Diffusion 參考提示詞並轉化為空間中的像素點，我們可以想像為一位畫家手上擁有各色顏料（提示詞），依照經驗將這些原料繪製在畫布上。顏料必然會暈染、交疊，而 DAAM 有辦法在旁解讀整個繪製過程，當圖畫完成時， DAAM 可以辨別這些顏料在哪裡用比較多、用比較少，並以熱圖顯示。

基於這項特性，用戶能透過視覺化，直觀檢驗自己寫的提示如何影響圖像。看起來艱深的提示詞，可能熱圖上一片藍紫色，表示根本沒發揮作用；看起來精確的提示詞，可能集中在熱圖上其他區域，表示產生的影響與預期有差異。

如果嘗試異想天開的場景：少年少女碰到廢棄醫院外的飛碟或廢棄鐵軌上的靈體，DAAM 能替我決定提示嗎......

剛開始測試，醫院或鐵軌對畫面元素影響較大，提示詞只寫 UFO 不一定會出現，要寫 UFO in the sky 才能穩定出現。

但 AI 能穩定生成浮空幽浮時，地景空間又被壓縮了，導致搭配鐵軌的除了雜草樹木外，頂多是城市遠景。我得添加具體敘述如 broken windows, messy wall 維持畫面中建築體存在的比例：

即使如此畫面也很精細，從熱圖可發現對廢棄建築的敘述，多少影響幽浮的表面材質。我想產出的並非這種畫風，決定大膽刪除所有品質提示詞、負面提示詞，讓 AI 只依照我輸入的元素，發想真正符合情境的圖像：

刪掉負面提示詞後，產生的廢墟感更符合我的想法，

我也增加了幾個風格的提示詞：

animation style：想讓 AI 產生呈現日本動漫般的整體畫風
Flat Design：廣泛應用於現今 3C 產品視覺化介面的 UI 設計風格，想藉此讓 AI 出圖避免色澤過多層次
lines：猜測 Flat Design 可能產生無輪廓線的畫風，藉此要求 AI 保留線條

這些提示詞成效如何？

前兩項全部影響到畫面邊角和天空去了？！ lines 只影響到鐵軌，玩雙關語的梗嗎？？？

果然隨意猜測的提示詞未必有效，這就是為啥我對 GPT 生成提示依然抱持待驗證的態度。仔細一想，需要日本動漫風格、需要扁平的著色方式、又要保留輪廓線......

我想到了靠 AI 生成特定畫風的殺手鐧做法，真麻煩啊我本來不想使用這招的──

提示詞「by Takashi Murakami」。

村上隆（Takashi Murakami）是推動超扁平運動（Superflat）的日本藝術家，此風格受日本電玩、動漫、御宅族文化影響，形象扁平像玩偶，豪放又色彩繽紛，同時影射日本文化內涵，正是前面三種提示詞的集合體。既然如此，使用藝術家名稱有效嗎？

相較前面圖片，幽浮邊緣的白邊，使整體圖像更接近於插畫風格，尤其左圖中右側區域彷彿藍圖的線稿，顯示 AI 生成確實受到藝術家名稱提示影響。但我不要我覺得，我要 DAAM 覺得：

結果影響那部分區域的，還是 lines 啊

整張圖裡最有村上隆風格的，只有幽浮眼睛一小塊區域喔XD

隨著持續產出，可發現「村上隆」提示詞穩定影響幽浮區域，而廢棄醫院、鐵軌，依然受到描述環境的提示詞如 broken windows, messy wall 影響明顯，或許與其塞一堆藝術家姓名提示詞來干預畫風，寫清楚自己想要 AI 生成的元素細節更有效。

所以我決定刪除到目前為止沒有明確作用的提示詞 animation style：

順便一提，刪掉某個提示之後，如果繼續讓 DAAM 檢測，檢測不到的提示詞便不會有熱圖產生，呈現下圖效果：

......Flat Design 也沒啥用，加入超扁平（Superflat）好了，然後添加更多藝術風格，以求降低圖像細節、提高顏色鮮豔程度：

至此已達到我想要的畫風了，陰暗廢墟背景之上漂浮著鮮豔浮誇幽浮、整體擁有清晰的輪廓線：

繼續增減提示詞權重，讓原本幽浮上比較明顯的風格，擴展到畫面整體。

然而全部建立在村上隆藝術風格的話，我的行為只是透過關鍵字的排列組合測試，在電腦上「重現」藝術家風格而缺乏創造，倘若 Takashi Murakami 提示詞的影響性最大，其他提示詞存在的用意為何？我的嘗試還有意義嗎？

因此出圖風格大致穩定後，我刪掉藝術家姓名，看看剩下的提示詞會產生什麼效果：

雖然幽浮與建築體幾乎混為一體，但整體色調竟然意外和諧。輪廓線不算有被強調，但那些歪七扭八、色澤鮮明的建築物，彷彿迪士尼頻道會播的動畫背景。

只要將圖像尺寸改為直式，就能把天上幽浮與地面的建物分開了 :

背景已穩定，再來是放入人物，我簡單地輸入1girl, 1boy, student uniform, full body, walking：

......原來要在 SD1.5 產出兩人並肩走，比調整畫風還難？

雖然上面 6 張包含 2 張雙人圖像，實際上要跑個 20 多張才能出現一、兩張，而且即便提示寫了要認人物看鏡頭，依然容易出現背後視角、人物看幽浮的構圖。最後是靠長寬 768x512 ，橫向尺寸設定，提高雙人出現的機率，才獲得下圖：

~~好可愛，到底是幽浮還是外星人啊~~

很顯然，一旦加入人物提示詞，背景又恢復較為寫實的風格，因此我得切換其它模型，尋找我好不容易嘗試出來的背景畫風：

所以我後來很少用 DAAM，Lora 出現後找到自己要的風格/人物/物件，載下來即插即用就好了。

運用 DAAM 尋找提示詞與圖像的關聯性，變成了既非感性創作、亦非理性研究的遊戲方式。這時候 AI 產圖依舊存在隨機性挑戰，而我沒有從類神經網路演算法優化的才智、沒有用繪圖軟體塗改修飾的巧手、沒有純為好玩花錢訂閱 Midjourney 的爽快。DAAM 彷彿提供了一條中庸之道，能迅速幫你了解提示怎麼寫，但你得主動發現更多才有用，村上隆、扁平化設計、普普藝術......

既然 AI 訓練資源來自人類歷史的積累，

對萬事萬物保持學習的心，才能明瞭如何使用 AI 更有效率。