2023 年 1-2 月之間,開始陸續有感興趣的角色 LoRA 上傳 Civitai 網站,同期間出現幾個有名的模型,例如能畫亞洲面孔的真人模型 Chilloutmix、二次元揉合厚塗的 OrangeMix 系列模型等等......
但看得懂和會不會用是兩回事,將真實模型合併二次元模型後, OrangeMix 系列帶來更真實的人體以及更柔和的光影表現,以至於我這幾個月摸索出來、表現較穩定的場景 prompt,用新模型產圖效果就不一樣了。
例如 12 月發現,能穩定營造下班時刻現代月台風格的提示詞:

放在 Novelai 模型上:

放在 waifu diffusion-1.4 模型上:

這提示詞產出的背景風格都比主要人物穩定,顯得我的 AI 圖像生成研究根本誤入歧途,社群上大家想看的是妹子、不是柱子啊 ! 因此看到 OrangeMix 系列模型被介紹可以提供更好人體形貌,便迫不及待下載嘗試。當我把這穩定的提示詞丟進去:

欸不是,我知道工作是黑白的,但不用這麼直接吧
和示意圖上鮮豔光影相差甚遠,我原以為因為提示詞強調的現代風格,導致 AI 過於加強日光燈的白光,但即便換其他幾組、在別的模型上能穩定產出特定場景的提示詞,OrangeMix 系列模型出來的圖片仍舊彩度過低,作者當初融合模型時該不會融到水墨畫模型了吧 ?
於是我上網查資料尋求解答,這才發現要搭配特定 VAE 檔案,讓圖片保持艷麗。
自 Stable Diffusion 推出後,天下使用者苦 Diffusion 模型好像比 GAN 模型有可控性,結果實際操作結果根本不能反映腦中想法久矣。所以 2022/9/25 由 Victor Gallego 發表的美學梯度 (Aesthetic Gradients),在 Embedding、LoRA 等方法應用於此前處理這種問題。
美學梯度使用了生成對抗網路,讓模型產圖的過程中,透過兩組神經網絡互相競爭,使生成的圖像在保持原本架構下,又融入了資料集的美術風格。簡單來說就是當你在廚房煮東西時,一位造詣精深的師傅在旁邊隨時給回饋,引導你煮出來名菜而不是黑暗料理。但哪會如此簡單就能學會煮名菜,人類對話往往是這樣...
「阿瑋你又在玩電動喔 ? 休息一下吧,去看個書好不好 ?」
「煩耶。」
「我在跟你講話你有沒有聽到 ?」
「我才講你兩句,你就說我煩 ? 」
「我只希望你能夠好好用功讀書,整天只看到你在這邊打電動......」
「吼 死了啦 都你害的啦」
AI 當然不會杰哥不要,但美學梯度用兩組神經網絡進行監督式學習,提供給負責監督模型的資料集需要風格一致才能進行有效引導,否則就像阿瑋阿嬤在旁邊教阿瑋用功不教阿瑋怎麼打電動,然後他就死掉了。
而 VAE (變分自動編碼器) 則是早在 2013/12/20 便由 Diederik P Kingma 和 Max Welling 提出,因為以 Diffusion 模型生成圖片時,像素越多計算量越龐大,因此需要【壓縮-計算-解壓縮】的流程降低計算需求並產出人們能看見的圖像。VAE 負責解壓縮的部分,所以不同 VAE 解壓縮過程中,會為圖片帶來一點細節、色調的不同小影響。回歸前面煮菜譬喻,差不多類似調理包,自己不會煮沒差,調理包倒下去照樣變成名菜。
OrangeMix 系列模型黯淡的原因昭然若揭,因為我沒搭配對應的 VAE。
當我補上,再度出圖,讓我想起了那段話 :
"神說,要有光。"
