哇,好有視覺衝擊的插圖,是AI算出來的?
上圖是用Midjourney算出來的武打動作,完全沒有經過修改。
第一眼你會感覺到很驚豔,但仔細一看會發現非常多怪東西摻在裏頭。
打給賀,好久不見,最近在忙這個啦!
承羅賓哥之福,近期有幸首次以AI進行案件,由於案件需要保密,就先用過程中一張用不到的圖來說一下。
如果要以這張圖來描述一場動作戲,Midjourney算出來的圖可不能興奮地直接拿去交差,因為客戶一看會覺得缺乏誠意。
Midjourney在手指繪製已經有很大的進步,但還是失誤機率還是很高。仔細一看左側西裝男的外套開口在很奇怪的地方,右側西裝男的左手不見了,左大腿的比例也少了一截,且他的嘴不見了。如果是商用這些細節都會被放大檢視,背景貼著奇怪文字的畫,不連貫的紙窗和屋頂多餘的構造,還有背景人物的怪異臉部。
也就是說,Midjourney現在可以幫你完成「主要的構圖」和「光線」,但細節就要靠使用者的經驗去修復了。沒有錯,「構圖」和「光線」依然是AI最強項,在這兩方面可以替用戶省下大量時間。
AI幾乎沒有方向概念,因為它"看"不到,AI只能靠大量的數據拼湊、猜測你的指示詞。
就例如這張動作圖我要的是「女角分腿踢中兩個西裝男」的構圖,即便我輸入了:
The woman split-kicks two men on black suits in the head, the woman kicks two men in black suits on the left and right side with her feet
這種"教它怎麼踢"、"踢人是長怎樣"的鉅細靡遺敘述,它,還是會給你這種駭客任務的動作。
因為AI沒有感官,所以他不知道用什麼踢、怎麼踢,就在大量嘗試中我發現,AI要的是精準的關鍵字和參考圖。直到我給它精確的參考圖...
這是跆拳道中的分腿踢,Taekwondo Split Kick。
給AI這張參考圖後,終於得到了更接近的繪製:
兩邊的西裝男真的很有型,我喜歡,很有韓漫風格,女角的腿也終於踢出來了,
但是..
你倒是給我踢中啊,你怎麼還躲了呢!
AI就是要這樣跟你唱反調。
也就是說,你必須告訴AI你要哪一種踢,然後給它"讀"得懂的圖跟它說:「照著這樣踢」。然後不斷地抽卡,堪比手遊的抽獎機率(大概幾十張會中一張,一張要數分鐘不等),然後抽中你要的那張。
但是,並不是給了參考圖它就會如你所願,有高機率它會直接吃參考圖的概念,給你生一堆差不多的圖。
當我想要女角一次飛踢多人怎麼辦?我給它找跆拳道的圖片。
但是,當AI意會到那是跆拳道時,它就給你一堆穿跆拳道服的圖片。
西裝男全都不穿西裝了,女角不僅換了道服,還踢飛了一隻鞋子,然後完全沒有在打鬥的感覺,就是紮紮實實的跆拳道擺踢。
AI也嚴重缺乏方向概念,你要女角上半身往後仰,仰多少度它不知道,還有鏡位你要怎麼下,也依舊是個未解問題。目前已知的鏡頭指令,就是非常基礎的high angle(俯視)、long shot(遠景)這些,但你希望鏡頭俯視多少角度、斜多少度,還"值得期待"。
雖然這一版Midjourney推出了眾所期待的Character Reference功能,可以讓用戶插入腳色圖片讓AI參考,藉此達成故事連貫性,但目前依舊"進步空間很大"。
YT上有許多影片示範用自己的肖像做出動漫風格大頭照,效果確實相當驚豔。
但正如剛才說的,AI沒有方向感,所以腳色頭部的方向變了,例如正臉換成側臉,腳色的臉型就會跑掉,因為AI會讀取其他資料來"猜測"你要的臉型,導致腳色看起來不連貫。
還有一個非常令人頭痛的問題,就是--cref指令不只讀取了腳色的臉部和服裝,連動作都照吃,而且會固定動作。
例如,我想要女角維持上圖這種韓漫美型,我在算圖後面加上--cref,讓它吃該圖的人物造型,再搭配武打動作的參考底圖。
就得到了以下結果:
你會發現,腳色造型確實吃到了,肢體、構圖卻也固定住了,我希望是個遠景人物至少膝上的構圖,但因為加了character reference,AI模仿了腳色參考圖膝上的肢體,且雙手只會擺那樣的角度,無論你算再多張都如出一轍。而且,這種固定是吃得死死的,即使我改變了底圖,只要還是有加--cref,動作就會大機率相似。
像是這張,我捨棄了niji v6改用Midjourney Alpha v6,肢體有較靈活了些,但還是擺著相似的架拳姿勢,腿完全踢不起來,腳色臉型也跑掉了。而且它還給我加了個簽名...我搜過了,沒有這個人...
那麼,嘗試自己把腳色臉型轉正,再讓AI參考呢?
效果還是十分有限,從上圖可以知道腳色風格依舊不一致,且AI對風格關鍵字的反應只能拼湊。
我希望AI能給我90年代日漫帶有美式肌肉感的效果,像是井上雄彥、北条司的城市獵人,我給了1980 retro anime style關鍵字。
於是它給了左邊水汪汪大眼幸運女神風格,中間那位既不像井上雄彥的灌籃高手,又給我穿了短褲要去打籃球了,右邊感覺很好但嘴唇厚了些,給AI吃右邊風格就會產出一堆接近美漫厚唇的人物。
以目前經驗來說,單獨使用Midjourney不夠,還要搭配其他工具,像是骨架訓練以及人物模型訓練,和Stable Defusion交互應用可能會好很多。
最重要的是,還要需要有判斷能力的老手,從參考圖、關鍵字開始到AI生圖的揀選、後製修復合成做完整的監修,沒辦法一鍵完成。
一張較為精細的場景概念圖或分鏡圖,原本繪師可能要花三、五天(或更久)才能完成,且還要花很多時間蒐集、消化參考圖,經過14天親自操作,可以大幅縮減至一到兩天。業界設計師、遊戲美術師運用起來就更強了。
我們可以反覆改變文字提示權重--iw,或是圖片參考權重--sref來得到不同的生成,還能用Midjourney目前我覺得最強的功能:區域修改Vary Region,終於得到女角同時腳踢兩個西裝男且都有揍到的打擊感。
當然這不是最後成果,女角的左腿依舊太長、背景和臉部都要修改,完成圖需要保密就先放上這張。
也就是說,密集操作14天約生成2,700張圖之後,能知道美術AI目前都還在實驗性階段。而且Midjourney還有個缺點,上圖中可以看到有個Fast Time,是指快速生成時間,每次用fast mode生成圖片都會消耗點數,而標準方案的Fast mode是15小時限制。
我在訂閱Midjourney標準方案第三天就把15小時快速時間用完了,接下來都只能用relax mode普通速度。使用relax mode會有明顯的差異,你不能一次生成多張圖片再挑選、按重複製作時會跳出對話框、生成速度明顯降速(可以到1/4或1/5)。
系統會提示你要不要加購fast mode,而加購是天價。
標準方案是單月30美金,訂閱當天匯率是32.53也就是976台幣,而加購快速時間可以到將近50美金,且加購的快速時間不是持續一整個月,是只有可能30或幾十個小時。
這就有點"手遊遊戲內付費"的概念,你有基本的可以用,還要用你要買,而且這手遊還不是免費,然後你還是要抽卡。