更新於 2024/12/10閱讀時間約 5 分鐘

尚待磨合的細節【2022/11】

11月,繼續用Novelai、AnythingV3模型嘗試生成圖像。

既然有特定角色已被模型記住,我可以降低人物的敘述,對場景多一些關注。畢竟總是站在畫面正中央看鏡頭微笑的構圖,無聊死了,對吧?

才剛說無聊就放這張,不是自打臉嗎?

不是啊,這是難得full body,臉卻沒有太歪的圖片啊 !


這時候產圖大體上還是得面對細節不對、肢體歪曲的AI生成正常缺陷,希望角色特徵更正確,對某細節敘述提高權重,往往外溢到畫面其他地方去。比如從火刑而生的復仇者貞德Alter,讓模型生成新宿版穿著,總無法和原版穿著一樣穩定,沒關係身為火系從者就用手搓火球術證明吧 : flying_fire_in_air !

顯然我環境prompt的敘述寫太多了,火球效果不是很明顯...

那就(flying_fire_in_air:1.3)試試——

周遭環境全被火吞沒啦!!!


同樣地,人們越想把角色在畫面中的動作鎖定,位置、動作相關的prompt下越多,AI生成的角色自然會擺出越不自然的姿勢。假如我又想第一人稱視角Close-up、又想cowboy shot附加腳部以下在畫框外、又想人物擺出激烈的戰鬥姿勢、又想大遠景展現城市樣貌,生成結果如下 :

中間多條畫框將圖片分成上下兩部分,如此腳部以下的確出畫框,cowboy shot要求的胯部以下在框外也達成了,為了我的奇怪訴求,AI無意間產生漫畫分鏡,令人莞爾。


多次嘗試後,坦白來說"精確"越來越不是我測試的目標,因為Stable Diffusion生成原理的隨機性,意味著這次產出成果穩定,不代表下次稍微更動些變數還能保持類似效果。為了保有固定風格,使用者恐怕得在提示詞上定期測試,未免太勞累、在圖像之外的地方投入太多了點。但肢體歪斜總是無法避免,難道放棄追求精確,代表妥協於那些歪七扭八的人物圖像嗎?不是的 !


歪曲的地方,用氣勢蓋過去 !


圖中人物肢體顯然災難性的失敗,找不到雙手、背景火焰與頭部融合、左側腿部幾乎溶入夜景。然而透過動態模糊、空中火焰的軌跡、以及過往看漫畫所累積的經驗,我們可以輕易推理出這是一個人賣力向前奔馳的圖像,左手臂看不見勢必因為被頭遮住,並且上面可能處於點燃狀態,運用燃燒的肢體拳擊,在動漫畫中是非常常見的攻擊方式。


即使動畫是由一秒24幀組成,人們也不會挑出來一張一張檢視這1/24秒手指準確、那1/24秒肢體錯誤,因為適度的扭曲能夠提高畫面張力。AI生成圖像總會產出歪曲的圖,那麼用動態模糊、光影、速度線,或許能接納這些缺陷般的存在、賦予積極性的涵義?


我對此念頭感到好笑,

這種想法代表正視了AI生成的極限,所以開始替它尋找意義嗎?


回想起一個多月前的10/5,以不打草稿現場速寫聞名的韓國著名漫畫家金政基,其工作室發布訃告,稱這位藝術家10/3感覺心臟不適,送醫搶救無效離世,享年47歲。

10/7,有網友表示自己訓練了個模型來繪製金政基的風格,作為致意。


致意?


那麼一瞬間,我想找到模型檔案來嘗試,因為被稱為「人肉影印機」的他,精準的鏡頭掌握以及細節描繪,是我景仰、想要學習的存在。但我又多想了幾秒鐘,確認想要的究竟是什麼,高超的空間透視?時而寫實時而飄逸的筆觸?不打草稿就能妥善安排各種畫面元素?


在2022年10月,叫AI掌握空間與細節? 開什麼玩笑啊?

掌握不到藝術家精髓的模型,又適合冠上藝術家的名號嗎?


我最終仍未去找模型來測試,便已認定用了也達不到我的目標。且不說眾所皆知的AI生成技術對三維空間無概念,或者手都畫不好了還談啥物體細節,對我而言最根本的理由在於金政基令人驚嘆的部分原因,奠基於平凡人的侷限。沒有受過專業訓練、尚未建立多元豐富的知識儲備、甚至掌握了知識卻沒積累足夠時間演練,是難以做到完全不打草稿,徒手就能畫出各種主題的細緻插畫的,但他做到了,無論天賦異稟還是如他所述 :

「我承認自己不是天才,我喜歡畫畫,更喜歡畫漫畫,除了吃飯睡覺,每天要花10個小時來創作,最長一天可以連續畫16個小時,畫畫成為我生命中不可缺的一部分。」


有辦法無底稿繪製精緻圖像的人類,令人讚嘆;

有辦法無底稿繪製精緻圖像的模型,這不是基本功能嗎?


由此可證,AI就是"缺乏靈魂"啊。


既然人們對汽車的稱讚是「續航里程長」、「油耗低」而非「跑好遠」、「吃好少」、「馬拉松選手要被取代了ㄏㄏ」,沒必要對AI就特別優待,把用於藝術家或繪師作品的讚美詞直接平移到AI生成圖像,那或許只是演算法與程式碼經設計調適後的"正常發揮"。

與其為AI生成結果與人類預想不合而詫異、驚嘆,人類該嘗試的方向反而是拉近與AI的語言差異。除了一些人嘗試調整、精煉提示詞,設法讓AI聽懂外,還有一些人認為自然語言無法獲得預期結果,乃是模型演算法最佳化問題。2022/11/17公布、加州大學柏克萊分校研究團隊開發的InstructPix2Pix,試圖結合語言模型和文本生成圖像模型,藉由讓AI同時獲得圖片與文本兩種參考,生成更符合人類敘述的圖像。 或許研究人員當時沒想到,之後僅僅不到半個月、甚至連十二月都尚未抵達,這項技術將會在另外一個領域出現突破性進展,以一個更為簡潔、更好記憶的名字,而那個名字即將為你我所知 :










ChatGPT

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.