從零開始學AI繪圖 - 談 Stable Diffusion的Prompt (咒語)

更新於 2023/05/24發佈於 2023/05/24閱讀時間約 8 分鐘

AI繪圖當道，我們時常在網路上看到令人驚豔的AI繪圖成品，但是就是不知道厲害的網友們怎麼生成這樣的AI繪圖成品的。也有很多人戲稱AI繪圖就是要懂得詠唱咒語，的確，對於不知道怎麼使用AI繪圖工具，或是第一次接觸AI繪圖工具的人，直接來使用類似Stable Diffusion這樣的進階工具，確實是比較有門檻。我推薦你先看看我介紹繪圖工具的這一篇，先從"玩"開始起步，有興趣了，再來跟我們一起研究比較進階的AI繪圖工具。

今天這一篇，我們要從實測的角度開始來學習怎麼掌握Stable Diffusion的咒語(Prompt)，我們會一步一步從最基本的Prompt開始，慢慢的把細節加上去，拆解Prompt裡面的元素，並且實測每個步驟的圖片給大家看，這樣大家在調製自己的風格的時候也能更清楚Prompt裡面的元素，才不會總是直接copy別人的整篇咒語但是又不知道內容是什麼。

要了解咒語，我們就先從咒語的四大元素開始講起。以下是我整理給各位的圖表

主體是我們一切Prompt的基礎，如果沒有正確的形容一個主體，那麼就無法得到好的結果，在這邊的範例，我們一樣用合作的痔瘡醫師鍾雲霓作為範本(所以會套上我們training的LORA這邊就不特別列出來)。假設我們今天想要畫一個用火焰的魔法師，初學者可能就會很直接地打上"A sorceress"，得到以下的圖片

但是這樣顯然對於主體的描述來說是不夠的，人物雖然因為我用了很漂亮的base model所以還說得過去，但是姿態各有不同，而且看起來好像沒有特別像是魔法師? 請問對於主體的人物來說該有什麼姿態呢? 魔法師要操作怎樣的魔法? 應該穿怎樣的衣服? 如果不描述清楚，就會產生這樣每一張都不太一樣的照片，而且AI想像的魔法師可能跟你想像的不一樣。如果我們進一步把這些細節加入主體的描述之中，就可以發現產出會比較一致，譬如說我們希望這是火魔法師的全身照，而且要穿著魔法袍，那麼以下為調整過的Prompt "full body portrait of a powerful sorceress wearing magical robe, casting fire magic" 那麼就會得到一致的多的結果如下(為了讓臉部不要壞掉，我有勾選Hires. fix 並且把圖片變成兩倍大，這樣可以有效改善小圖片的時候臉部崩壞的狀況)

接下來要談的第二個要素就是媒介Medium，究竟你希望你產出來的圖片是油畫呢? 照片呢? 水彩畫呢? 還是電子畫作? 這些都應該要寫在Prompt裡面，我直接產圖給各位看例子，油畫/水彩畫/照片風格/線條風格，各自有所不同。Prompt: oil painting, full body portrait of a powerful sorceress wearing magical robe, casting fire magic

第三個我們要談的要素就是風格，其實這跟第二個媒介也是有點類似，但是你可以請Stable Diffusion 模仿各類畫家的風格，出來的結果當然會有蠻大的差別，但是這跟你使用的Base Model也有很大的關係，以下為我請AI模仿幾個名畫家的結果，可以看到用畫家的名字來改變風格，是最強大的改變風格作法。Prompt: Art by (Vincent van Gogh或是其他以下畫家), full body portrait of a powerful sorceress wearing magical robe, casting fire magic

風格這邊當然也指光影跟整體的色彩，同樣的Prompt如果給了不同的色彩跟光影，就會有不同的結果。以下為更改色彩的Prompt 把最後的顏色改掉就可以

full body portrait of a powerful sorceress wearing magical robe, casting fire magic, round face, (iridescent gold themed或black and white 或silvery blue或vibrant green)

最後一個部分就是細節，在這邊我們可以加入很多跟細節相關的字眼來提升品質，常用的就是類似 masterpiece, best quality, intricate detail, highly detail, 4k 等等的字眼，我在這一篇文章裏面有提到可以提升整體的細節程度。另外一個細節就是我們不妨加入很多跟人物的背景，身上的小道具等等有關的東西，這些都會被Stable diffusion 列入考慮一起畫出來，舉例來說我們希望這個女魔法師是在圖書館的環境裡面施展火魔法，所以就加入很多場景的細節，考慮到以上的所有技巧，我們把所有的要素合併在一個prompt裡面就會有類似以下的很長的咒語。8k, (masterpiece), (best quality), full body portrait of a powerful sorceress wearing ornate magic robe, (casting fire magic), round face, mysterious expression, flowing robes, amulet, ancient library, parchment scrolls, dusty tomes, wooden bookshelves, ink and quill, celestial globes, astrological charts, magic circle, sparks of fire, golden bracelets, ruby rings, intricate detail, (silvery blue themed)
產出來的圖片則大概是下面這樣: