就把光暗分開了。【2023/1~2】

Bsh

發佈於AI越快，這裡則慢

2025/02/04 更新2025/02/04 發佈閱讀 4 分鐘

2023 年 1-2 月之間，開始陸續有感興趣的角色 LoRA 上傳 Civitai 網站，同期間出現幾個有名的模型，例如能畫亞洲面孔的真人模型 Chilloutmix、二次元揉合厚塗的 OrangeMix 系列模型等等......

有種脫歐入亞的感覺啊，還是熟悉的風格比較好評價。

但看得懂和會不會用是兩回事，將真實模型合併二次元模型後， OrangeMix 系列帶來更真實的人體以及更柔和的光影表現，以至於我這幾個月摸索出來、表現較穩定的場景 prompt，用新模型產圖效果就不一樣了。

例如 12 月發現，能穩定營造下班時刻現代月台風格的提示詞：

放在 Novelai 模型上：

放在 waifu diffusion-1.4 模型上：

這提示詞產出的背景風格都比主要人物穩定，顯得我的 AI 圖像生成研究根本誤入歧途，社群上大家想看的是妹子、不是柱子啊 ! 因此看到 OrangeMix 系列模型被介紹可以提供更好人體形貌，便迫不及待下載嘗試。當我把這穩定的提示詞丟進去：

~~欸不是，我知道工作是黑白的，但不用這麼直接吧~~

和示意圖上鮮豔光影相差甚遠，我原以為因為提示詞強調的現代風格，導致 AI 過於加強日光燈的白光，但即便換其他幾組、在別的模型上能穩定產出特定場景的提示詞，OrangeMix 系列模型出來的圖片仍舊彩度過低，作者當初融合模型時該不會融到水墨畫模型了吧 ?

於是我上網查資料尋求解答，這才發現要搭配特定 VAE 檔案，讓圖片保持艷麗。

自 Stable Diffusion 推出後，天下使用者苦 Diffusion 模型好像比 GAN 模型有可控性，結果實際操作結果根本不能反映腦中想法久矣。所以 2022/9/25 由 Victor Gallego 發表的美學梯度 (Aesthetic Gradients)，在 Embedding、LoRA 等方法應用於此前處理這種問題。

美學梯度使用了生成對抗網路，讓模型產圖的過程中，透過兩組神經網絡互相競爭，使生成的圖像在保持原本架構下，又融入了資料集的美術風格。簡單來說就是當你在廚房煮東西時，一位造詣精深的師傅在旁邊隨時給回饋，引導你煮出來名菜而不是黑暗料理。但哪會如此簡單就能學會煮名菜，人類對話往往是這樣...

「阿瑋你又在玩電動喔 ? 休息一下吧，去看個書好不好 ?」

「煩耶。」

「我在跟你講話你有沒有聽到 ?」

「我才講你兩句，你就說我煩 ? 」

「我只希望你能夠好好用功讀書，整天只看到你在這邊打電動......」

「吼死了啦都你害的啦」

AI 當然不會杰哥不要，但美學梯度用兩組神經網絡進行監督式學習，提供給負責監督模型的資料集需要風格一致才能進行有效引導，否則就像阿瑋阿嬤在旁邊教阿瑋用功不教阿瑋怎麼打電動，然後他就死掉了。

而 VAE (變分自動編碼器) 則是早在 2013/12/20 便由 Diederik P Kingma 和 Max Welling 提出，因為以 Diffusion 模型生成圖片時，像素越多計算量越龐大，因此需要【壓縮-計算-解壓縮】的流程降低計算需求並產出人們能看見的圖像。VAE 負責解壓縮的部分，所以不同 VAE 解壓縮過程中，會為圖片帶來一點細節、色調的不同小影響。回歸前面煮菜譬喻，差不多類似調理包，自己不會煮沒差，調理包倒下去照樣變成名菜。

OrangeMix 系列模型黯淡的原因昭然若揭，因為我沒搭配對應的 VAE。

當我補上，再度出圖，讓我想起了那段話 :

"神說，要有光。"