至目前為止,共寫了 3 篇文章回憶 SD 初次使用感受,提及安裝、文生圖、圖生圖。
這些文章都有個共同點 : 對於如何用 AI 生成人物圖像並未多著墨。
因為那段時間大量使用文生圖試錯,各種歪七扭八的偽人圖片已經品鑑得夠多了,再試下去簡直是在玩偽人版的請出示證件。比起追求美麗樣貌再屢次為生成結果驚愕,不如直接輸入破滅、無序、渾沌的敘述反而得到人物與環境連結性較為自然的圖像。
結論是想讓 AI 生成人物在 512x768 尺寸限制內比較正常,得控制在 cowboy shot 到 upper body 之間的距離,若全身圖或小腿以下出框,AI 會產出臉部模糊、眼睛細節不對的面孔。某些提示詞譬如亞洲人,甚至會出現歐美普遍對黃種人的刻板印象──細細長長的瞇瞇眼。
顯然是模型問題,但我不得不思考獨顯 4GB 的筆電,是否也是影響 AI 生成品質的因素?
可是筆電才買來一個多月,為這種非本職的生活趣味採購新設備,有必要嗎?
幸好 10/5 圖生圖火車的嘗試,讓我有了新靈感 :
搭配文生圖與圖生圖兩種功能來生成人物,窮人有窮人的玩法 !
簡單來說,當前筆電如果產出長寬大於 768px 的圖像有概率 out of memory
在此限制下,文生圖可能出現眼歪嘴斜、圖生圖 CFG 低則接近(受限)原圖結構、高則貼近敘述(跳脫原圖),全圖不夠大導致遮罩修復有時會因為空間太小 AI 不好發揮。
那如果先輸入所需 prompt 大量文生圖,再篩選其中少數人體結構正常的圖像去圖生圖,就能得到肢體(較)正常、五官(較)清晰的圖片 !
經過這套流程,有機會突破 Stable Diffusion 模型產出二次元風格人物表情模糊的缺陷,達到近似 2.5D 人物風格效果。但圖生圖不是 Controlnet canny 或 openpose,就算找到完美構圖,給 AI 跑一下發現怎麼前景變背景、人物變建築,因為 AI 不是用事物名稱去分類事物,而是掌握整張圖的特定規律再來加雜訊除雜訊。
觀察以電影《愛國者行動》維基頁面海報為底圖,圖生圖產出的成品,可發現原本海報標題、馬克華伯格背影都被 AI 當成建築物。所以這個階段 AI 生成就是乍看氣氛到了,但怎麼引導它做出正確的形象、需求的構圖,明顯不夠直觀。好處在於同樣花時間,用在按鈕抽卡等結果總比開圖層勾線著色不費工夫,只要用戶謹記同一件衣料 AI 看起來像棋盤稿紙綠豆糕,你聽你的鳥鳴、AI 看 AI 的日出,彼此都會有等量的美的感受。
不要執着於外相、虛相而偏離了 AI 生成隨機性本質,偽人不也展現出強韌生命力的美~?
如此鑽研幾天後,2022/10/8,我看見 Waifu Diffusion v1.3 釋出的公告。
使用了 680,000 張高解析度 Danbooru 影像訓練 10 個 Epoch,專門用來生成高品質二次元動漫角色圖像。
果然專業人士有專業人士的玩法啊 !