補記:DAN DA DAAM!

更新於 發佈於 閱讀時間約 6 分鐘

ChatGPT 提供了圖像生成提示詞的發想建議,但追根究底,如何確認提示詞在圖裡確實有發揮作用?

這就要介紹 DAAM (Diffusion Attentive Attribution Maps),這項 2022/12/4 出現的技術。


Stable Diffusion 參考提示詞並轉化為空間中的像素點,我們可以想像為一位畫家手上擁有各色顏料(提示詞),依照經驗將這些原料繪製在畫布上。顏料必然會暈染、交疊,而 DAAM 有辦法在旁解讀整個繪製過程,當圖畫完成時, DAAM 可以辨別這些顏料在哪裡用比較多、用比較少,並以熱圖顯示。


基於這項特性,用戶能透過視覺化,直觀檢驗自己寫的提示如何影響圖像。看起來艱深的提示詞,可能熱圖上一片藍紫色,表示根本沒發揮作用;看起來精確的提示詞,可能集中在熱圖上其他區域,表示產生的影響與預期有差異。

如果嘗試異想天開的場景:少年少女碰到廢棄醫院外的飛碟或廢棄鐵軌上的靈體,DAAM 能替我決定提示嗎......

raw-image
raw-image

剛開始測試,醫院或鐵軌對畫面元素影響較大,提示詞只寫 UFO 不一定會出現,要寫 UFO in the sky 才能穩定出現。

但 AI 能穩定生成浮空幽浮時,地景空間又被壓縮了,導致搭配鐵軌的除了雜草樹木外,頂多是城市遠景。我得添加具體敘述如 broken windows, messy wall 維持畫面中建築體存在的比例:

raw-image
raw-image

即使如此畫面也很精細,從熱圖可發現對廢棄建築的敘述,多少影響幽浮的表面材質。我想產出的並非這種畫風,決定大膽刪除所有品質提示詞、負面提示詞,讓 AI 只依照我輸入的元素,發想真正符合情境的圖像:

raw-image

刪掉負面提示詞後,產生的廢墟感更符合我的想法,

raw-image

我也增加了幾個風格的提示詞:

  • animation style:想讓 AI 產生呈現日本動漫般的整體畫風
  • Flat Design:廣泛應用於現今 3C 產品視覺化介面的 UI 設計風格,想藉此讓 AI 出圖避免色澤過多層次
  • lines:猜測 Flat Design 可能產生無輪廓線的畫風,藉此要求 AI 保留線條


這些提示詞成效如何?

raw-image

前兩項全部影響到畫面邊角和天空去了?! lines 只影響到鐵軌,玩雙關語的梗嗎???


果然隨意猜測的提示詞未必有效,這就是為啥我對 GPT 生成提示依然抱持待驗證的態度。仔細一想,需要日本動漫風格、需要扁平的著色方式、又要保留輪廓線......


我想到了靠 AI 生成特定畫風的殺手鐧做法,真麻煩啊我本來不想使用這招的──



提示詞「by Takashi Murakami」。



村上隆(Takashi Murakami)是推動超扁平運動(Superflat)的日本藝術家,此風格受日本電玩、動漫、御宅族文化影響,形象扁平像玩偶,豪放又色彩繽紛,同時影射日本文化內涵,正是前面三種提示詞的集合體。 既然如此,使用藝術家名稱有效嗎?

raw-image

相較前面圖片,幽浮邊緣的白邊,使整體圖像更接近於插畫風格,尤其左圖中右側區域彷彿藍圖的線稿,顯示 AI 生成確實受到藝術家名稱提示影響。但我不要我覺得,我要 DAAM 覺得:

raw-image

結果影響那部分區域的,還是 lines 啊

整張圖裡最有村上隆風格的,只有幽浮眼睛一小塊區域喔XD


隨著持續產出,可發現「村上隆」提示詞穩定影響幽浮區域,而廢棄醫院、鐵軌,依然受到描述環境的提示詞如 broken windows, messy wall 影響明顯,或許與其塞一堆藝術家姓名提示詞來干預畫風,寫清楚自己想要 AI 生成的元素細節更有效。

所以我決定刪除到目前為止沒有明確作用的提示詞 animation style:

raw-image

順便一提,刪掉某個提示之後,如果繼續讓 DAAM 檢測,檢測不到的提示詞便不會有熱圖產生,呈現下圖效果:

raw-image


......Flat Design 也沒啥用,加入超扁平(Superflat)好了,然後添加更多藝術風格,以求降低圖像細節、提高顏色鮮豔程度:

raw-image

至此已達到我想要的畫風了,陰暗廢墟背景之上漂浮著鮮豔浮誇幽浮、整體擁有清晰的輪廓線:

raw-image


繼續增減提示詞權重,讓原本幽浮上比較明顯的風格,擴展到畫面整體。

raw-image


然而全部建立在村上隆藝術風格的話,我的行為只是透過關鍵字的排列組合測試,在電腦上「重現」藝術家風格而缺乏創造,倘若 Takashi Murakami 提示詞的影響性最大,其他提示詞存在的用意為何?我的嘗試還有意義嗎?


因此出圖風格大致穩定後,我刪掉藝術家姓名,看看剩下的提示詞會產生什麼效果:

raw-image

雖然幽浮與建築體幾乎混為一體,但整體色調竟然意外和諧。輪廓線不算有被強調,但那些歪七扭八、色澤鮮明的建築物,彷彿迪士尼頻道會播的動畫背景。

raw-image


只要將圖像尺寸改為直式,就能把天上幽浮與地面的建物分開了 :

raw-image


背景已穩定,再來是放入人物,我簡單地輸入1girl, 1boy, student uniform, full body, walking:

raw-image

......原來要在 SD1.5 產出兩人並肩走,比調整畫風還難?


雖然上面 6 張包含 2 張雙人圖像,實際上要跑個 20 多張才能出現一、兩張,而且即便提示寫了要認人物看鏡頭,依然容易出現背後視角、人物看幽浮的構圖。最後是靠長寬 768x512 ,橫向尺寸設定,提高雙人出現的機率,才獲得下圖:

raw-image

好可愛,到底是幽浮還是外星人啊


很顯然,一旦加入人物提示詞,背景又恢復較為寫實的風格,因此我得切換其它模型,尋找我好不容易嘗試出來的背景畫風:

raw-image
raw-image


所以我後來很少用 DAAM,Lora 出現後找到自己要的風格/人物/物件,載下來即插即用就好了。


運用 DAAM 尋找提示詞與圖像的關聯性,變成了既非感性創作、亦非理性研究的遊戲方式。這時候 AI 產圖依舊存在隨機性挑戰,而我沒有從類神經網路演算法優化的才智、沒有用繪圖軟體塗改修飾的巧手、沒有純為好玩花錢訂閱 Midjourney 的爽快。DAAM 彷彿提供了一條中庸之道,能迅速幫你了解提示怎麼寫,但你得主動發現更多才有用,村上隆、扁平化設計、普普藝術......



既然 AI 訓練資源來自人類歷史的積累,

對萬事萬物保持學習的心,才能明瞭如何使用 AI 更有效率。

留言
avatar-img
留言分享你的想法!
avatar-img
Bsh的沙龍
3會員
49內容數
記錄我在 2022 年 9 月之後使用 AI 生成圖像的嘗試。 這個主題總有一天會沒東西好寫,那就走一步算一步吧...…
Bsh的沙龍的其他內容
2025/04/29
既然 BiliBili 上分享的 LoRA 號稱可一鍵生成漫畫,我決定只寫 prompt 來引導 AI 生成漫畫頁,直到足以拼湊一段劇情為止,再來計算總共生成多少張、又從中採用多少張。
Thumbnail
2025/04/29
既然 BiliBili 上分享的 LoRA 號稱可一鍵生成漫畫,我決定只寫 prompt 來引導 AI 生成漫畫頁,直到足以拼湊一段劇情為止,再來計算總共生成多少張、又從中採用多少張。
Thumbnail
2025/04/22
或許舊作品消滅與 AI 生成風潮,只是證實內心對圖像價值的質疑。諷刺的是,我竟因為懶得開 SD 、漫無目的上網而看到新的可能性。
Thumbnail
2025/04/22
或許舊作品消滅與 AI 生成風潮,只是證實內心對圖像價值的質疑。諷刺的是,我竟因為懶得開 SD 、漫無目的上網而看到新的可能性。
Thumbnail
2025/04/15
測過 ChatGPT 寫提示的效果,我再無懸念,自己目前的流程問題開張 Google sheet 便能解決,用不著 AI。
Thumbnail
2025/04/15
測過 ChatGPT 寫提示的效果,我再無懸念,自己目前的流程問題開張 Google sheet 便能解決,用不著 AI。
Thumbnail
看更多
你可能也想看
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
孩子寫功課時瞇眼?小心近視!這款喜光全光譜TIONE⁺光健康智慧檯燈,獲眼科院長推薦,網路好評不斷!全光譜LED、180cm大照明範圍、5段亮度及色溫調整、350度萬向旋轉,讓孩子學習更舒適、保護眼睛!
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
上次在 "AI繪圖提示詞苦手嗎" 就有請 AI 幫忙過了,這次想再分享一下,這兩天一個蠻有趣經驗,給您參考。 我這兩天一直想畫可愛的小狗站著散步,如上圖,但,一剛開始,出圖效果不好...
Thumbnail
上次在 "AI繪圖提示詞苦手嗎" 就有請 AI 幫忙過了,這次想再分享一下,這兩天一個蠻有趣經驗,給您參考。 我這兩天一直想畫可愛的小狗站著散步,如上圖,但,一剛開始,出圖效果不好...
Thumbnail
我 Tensor.art 加入 PRO 之後,每天有 300 點,就是可以亂搞~ 哈哈! 上圖是正常的出圖(提示詞: Big green trees, rainbow after rain, grass),以下由 ChatGPT 提示我幾種畫風,我來把它套用到提示詞中,來看看出圖效果如何?
Thumbnail
我 Tensor.art 加入 PRO 之後,每天有 300 點,就是可以亂搞~ 哈哈! 上圖是正常的出圖(提示詞: Big green trees, rainbow after rain, grass),以下由 ChatGPT 提示我幾種畫風,我來把它套用到提示詞中,來看看出圖效果如何?
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
這篇要研究文字提示詞的處理方式。
Thumbnail
這篇要研究文字提示詞的處理方式。
Thumbnail
⋯⋯不過,我所抱持的心態,並不是透過提示來獲得答案,而是透過提示來獲得通往最終答案的靈感或啟發。——《高產出的本事》劉奕酉
Thumbnail
⋯⋯不過,我所抱持的心態,並不是透過提示來獲得答案,而是透過提示來獲得通往最終答案的靈感或啟發。——《高產出的本事》劉奕酉
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
從去年2/18開始使用ChatGPT以來,我一直沒有加入任何ChatGPT或AI相關討論社團,原因是不想被「影響」,希望訓練、依靠自己的「腦洞」進行各種創作與測試。 直到昨天第一次註冊、使用Bing DALL-E 3,很快吸收了大量同好分享的指令,融合自己摸索出來的經驗,開始進行更多類型的創作。
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
Thumbnail
在某次chatgpt 4更新後(Chatgpt 4需要付費才能使用) chatgpt新增了AI繪圖的功能(使用DALL-E方式生成) 🥳🥳🥳 但是我自己是用一段時間後,發現到一些疑點和心得:
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News