尚待磨合的細節【2022/11】

更新於 2024/12/10閱讀時間約 5 分鐘

11月,繼續用Novelai、AnythingV3模型嘗試生成圖像。

既然有特定角色已被模型記住,我可以降低人物的敘述,對場景多一些關注。畢竟總是站在畫面正中央看鏡頭微笑的構圖,無聊死了,對吧?

raw-image

才剛說無聊就放這張,不是自打臉嗎?

不是啊,這是難得full body,臉卻沒有太歪的圖片啊 !


這時候產圖大體上還是得面對細節不對、肢體歪曲的AI生成正常缺陷,希望角色特徵更正確,對某細節敘述提高權重,往往外溢到畫面其他地方去。比如從火刑而生的復仇者貞德Alter,讓模型生成新宿版穿著,總無法和原版穿著一樣穩定,沒關係身為火系從者就用手搓火球術證明吧 : flying_fire_in_air !

raw-image

顯然我環境prompt的敘述寫太多了,火球效果不是很明顯...

那就(flying_fire_in_air:1.3)試試——

raw-image

周遭環境全被火吞沒啦!!!


同樣地,人們越想把角色在畫面中的動作鎖定,位置、動作相關的prompt下越多,AI生成的角色自然會擺出越不自然的姿勢。假如我又想第一人稱視角Close-up、又想cowboy shot附加腳部以下在畫框外、又想人物擺出激烈的戰鬥姿勢、又想大遠景展現城市樣貌,生成結果如下 :

raw-image

中間多條畫框將圖片分成上下兩部分,如此腳部以下的確出畫框,cowboy shot要求的胯部以下在框外也達成了,為了我的奇怪訴求,AI無意間產生漫畫分鏡,令人莞爾。


多次嘗試後,坦白來說"精確"越來越不是我測試的目標,因為Stable Diffusion生成原理的隨機性,意味著這次產出成果穩定,不代表下次稍微更動些變數還能保持類似效果。為了保有固定風格,使用者恐怕得在提示詞上定期測試,未免太勞累、在圖像之外的地方投入太多了點。但肢體歪斜總是無法避免,難道放棄追求精確,代表妥協於那些歪七扭八的人物圖像嗎?不是的 !


歪曲的地方,用氣勢蓋過去 !


raw-image

圖中人物肢體顯然災難性的失敗,找不到雙手、背景火焰與頭部融合、左側腿部幾乎溶入夜景。然而透過動態模糊、空中火焰的軌跡、以及過往看漫畫所累積的經驗,我們可以輕易推理出這是一個人賣力向前奔馳的圖像,左手臂看不見勢必因為被頭遮住,並且上面可能處於點燃狀態,運用燃燒的肢體拳擊,在動漫畫中是非常常見的攻擊方式。


即使動畫是由一秒24幀組成,人們也不會挑出來一張一張檢視這1/24秒手指準確、那1/24秒肢體錯誤,因為適度的扭曲能夠提高畫面張力。AI生成圖像總會產出歪曲的圖,那麼用動態模糊、光影、速度線,或許能接納這些缺陷般的存在、賦予積極性的涵義?


我對此念頭感到好笑,

這種想法代表正視了AI生成的極限,所以開始替它尋找意義嗎?


回想起一個多月前的10/5,以不打草稿現場速寫聞名的韓國著名漫畫家金政基,其工作室發布訃告,稱這位藝術家10/3感覺心臟不適,送醫搶救無效離世,享年47歲。

10/7,有網友表示自己訓練了個模型來繪製金政基的風格,作為致意。


致意?


那麼一瞬間,我想找到模型檔案來嘗試,因為被稱為「人肉影印機」的他,精準的鏡頭掌握以及細節描繪,是我景仰、想要學習的存在。但我又多想了幾秒鐘,確認想要的究竟是什麼,高超的空間透視?時而寫實時而飄逸的筆觸?不打草稿就能妥善安排各種畫面元素?


在2022年10月,叫AI掌握空間與細節? 開什麼玩笑啊?

掌握不到藝術家精髓的模型,又適合冠上藝術家的名號嗎?


我最終仍未去找模型來測試,便已認定用了也達不到我的目標。且不說眾所皆知的AI生成技術對三維空間無概念,或者手都畫不好了還談啥物體細節,對我而言最根本的理由在於金政基令人驚嘆的部分原因,奠基於平凡人的侷限。沒有受過專業訓練、尚未建立多元豐富的知識儲備、甚至掌握了知識卻沒積累足夠時間演練,是難以做到完全不打草稿,徒手就能畫出各種主題的細緻插畫的,但他做到了,無論天賦異稟還是如他所述 :

「我承認自己不是天才,我喜歡畫畫,更喜歡畫漫畫,除了吃飯睡覺,每天要花10個小時來創作,最長一天可以連續畫16個小時,畫畫成為我生命中不可缺的一部分。」


有辦法無底稿繪製精緻圖像的人類,令人讚嘆;

有辦法無底稿繪製精緻圖像的模型,這不是基本功能嗎?


由此可證,AI就是"缺乏靈魂"啊。


既然人們對汽車的稱讚是「續航里程長」、「油耗低」而非「跑好遠」、「吃好少」、「馬拉松選手要被取代了ㄏㄏ」,沒必要對AI就特別優待,把用於藝術家或繪師作品的讚美詞直接平移到AI生成圖像,那或許只是演算法與程式碼經設計調適後的"正常發揮"。

與其為AI生成結果與人類預想不合而詫異、驚嘆,人類該嘗試的方向反而是拉近與AI的語言差異。除了一些人嘗試調整、精煉提示詞,設法讓AI聽懂外,還有一些人認為自然語言無法獲得預期結果,乃是模型演算法最佳化問題。2022/11/17公布、加州大學柏克萊分校研究團隊開發的InstructPix2Pix,試圖結合語言模型和文本生成圖像模型,藉由讓AI同時獲得圖片與文本兩種參考,生成更符合人類敘述的圖像。 或許研究人員當時沒想到,之後僅僅不到半個月、甚至連十二月都尚未抵達,這項技術將會在另外一個領域出現突破性進展,以一個更為簡潔、更好記憶的名字,而那個名字即將為你我所知 :










ChatGPT

avatar-img
2會員
24內容數
記錄我在 2022 年 9 月之後使用 AI 生成圖像的嘗試。 這個主題總有一天會沒東西好寫,那就走一步算一步吧...…
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Bsh的沙龍 的其他內容
尚且無須擔心股市崩盤或技術泡沫,那段時間更像是時代的浪潮、人的夢想, 延續二十世紀以來世代傳承的人工智慧發展意志,衝擊生成式AI根本難以實用的限制。
現在我有 Stable Diffusion webUI、NovelAI、Anything-V3.0、三段式描述法、負向提示、線上各種提示詞整理...... 再來測試自己掌控畫面的能力 !
2022 年 10 月是創新與挑戰並存的月份,人們進行天馬行空的測試,投石問路功不唐捐,都是疊起邁向 AIGC 領域深處的墊腳石。但提示詞未免太長了吧???
2022 下半年的 AI 圖像生成技術這麼難用,為什麼還能掀起熱潮? 因為 AI 產的怪圖太怪了。
自 NovelAI 官方發推提及自家 AI 模型學習 Danbooru 圖庫後,有網友抓包 AI 餵太多帶有繪師簽名的圖片,連自己生成的圖片都出現簽名了。但這大概不是人工智慧覺醒黎明。
自 NovelAI 模型外洩後,技術人士分析該模型如何在二次元風格表現優異、普通愛好者則將目光鎖定在 Danbooru tag 庫上,是為大 prompt 時代。
尚且無須擔心股市崩盤或技術泡沫,那段時間更像是時代的浪潮、人的夢想, 延續二十世紀以來世代傳承的人工智慧發展意志,衝擊生成式AI根本難以實用的限制。
現在我有 Stable Diffusion webUI、NovelAI、Anything-V3.0、三段式描述法、負向提示、線上各種提示詞整理...... 再來測試自己掌控畫面的能力 !
2022 年 10 月是創新與挑戰並存的月份,人們進行天馬行空的測試,投石問路功不唐捐,都是疊起邁向 AIGC 領域深處的墊腳石。但提示詞未免太長了吧???
2022 下半年的 AI 圖像生成技術這麼難用,為什麼還能掀起熱潮? 因為 AI 產的怪圖太怪了。
自 NovelAI 官方發推提及自家 AI 模型學習 Danbooru 圖庫後,有網友抓包 AI 餵太多帶有繪師簽名的圖片,連自己生成的圖片都出現簽名了。但這大概不是人工智慧覺醒黎明。
自 NovelAI 模型外洩後,技術人士分析該模型如何在二次元風格表現優異、普通愛好者則將目光鎖定在 Danbooru tag 庫上,是為大 prompt 時代。
本篇參與的主題活動
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
最近玩到了一個我覺得很新奇有趣的軟體,叫做SillyTavern。 SillyTavern是專用於創建虛擬角色的AI聊天軟體,SillyTavern是TavernAI的分支,但SillyTavern走上了自己的路,加進了許多額外功能,並且仍在積極的持續更新中。 然後,可以色色!
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
在生成式AI與大型語言模型(Large Language Model, LLM)蓬勃發展下,有許多工具可以幫助我們學習與撰寫程式,這篇文章提供了實作範例與一些經驗,分享如何使用ChatGPT(免費的GPT-3.5)協助程式語言的學習,並且完成屬於自己的程式。
前幾個禮拜,AWS 舉行 Startup Day Taiwan。想當然爾,最熱門的主題非生成式 AI (Generative AI) 莫屬。既然 AWS 有現成的工具,身為一名工程師,自然看看無妨,這篇文章算是新手開箱文,會說明如何部署一套基礎模型,並使用 AWS SDK 與其互動。
前言 我在工作中沒有什麼機會接觸到機器學習,學生時期也沒有學習過相關知識。 作為一個業餘小白,我對機器學習非常感興趣。在自學的過程中,我逐漸意識到利用機器學習可以做很多有趣的事情。 因此,我決定嘗試使用 AWS SageMaker JumpStart 來實驗文字生成式繪圖 AI ,以了解機
最近玩到了一個我覺得很新奇有趣的軟體,叫做SillyTavern。 SillyTavern是專用於創建虛擬角色的AI聊天軟體,SillyTavern是TavernAI的分支,但SillyTavern走上了自己的路,加進了許多額外功能,並且仍在積極的持續更新中。 然後,可以色色!
「Prompt」這個詞是提示的意思,但為什麼需要提示呢? 當AI不理解我們的時候,勢必給出的回應並非準確的為我們解答,因此一個好的提示是非常重要的,就如同我們人與人之間的溝通一樣,如何將自己心裡的疑惑轉化成好的問題來提問對方,讓對方理解,進而給出一個明確的答案,這就是提示(Prompt)的重要性,對
你可能也想看
Google News 追蹤
Thumbnail
投資新手大多從身邊市場開始著手,選擇台股市場入門,單筆投資或台股定期定額投資,隨著經驗累積,進入美股市場也是好選擇,這篇文章帶你前進美股投資,證券開戶選擇國內券商複委託,使用美股定期定額投資,並以國泰 CUBE App為例說明。 內容目錄: 1.一站式開戶:以國泰世華 CUBE App 為例
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
最近AI的産圖越來越多,是時候開始整理了,隨機生成的廢圖基本上都清除了,剩下一堆感覺不差的挑一挑,只是數量有點多。
Thumbnail
創建虛擬角色想要賦予生動表情,或是讓歷史人物更變得栩栩如生,利用 AI 模型即可將靜態人物照片變成擁有表情的動態影像。LivePortrait AI 模型可以分析影片中的人物表情,並將其套用至靜態照片,產生具有與影片人物相同表情的動態人像。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
偽紀錄系列,已經疲累的心靈,於混亂的時空蒐集自己存在的碎片,在數位的世界重組,讓鏡中映射出那個「完美」的你,取代我繼續走下去。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
可能包含敏感內容
鏡像計畫啟動,虛擬的完美自我複製,或許是 AI 世代必然的收束,但除了潮流外,似乎還有甚麼在驅使著我?
Thumbnail
本篇文章參考 Youtube 影片(...二次元模型...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建
Thumbnail
投資新手大多從身邊市場開始著手,選擇台股市場入門,單筆投資或台股定期定額投資,隨著經驗累積,進入美股市場也是好選擇,這篇文章帶你前進美股投資,證券開戶選擇國內券商複委託,使用美股定期定額投資,並以國泰 CUBE App為例說明。 內容目錄: 1.一站式開戶:以國泰世華 CUBE App 為例
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
最近AI的産圖越來越多,是時候開始整理了,隨機生成的廢圖基本上都清除了,剩下一堆感覺不差的挑一挑,只是數量有點多。
Thumbnail
創建虛擬角色想要賦予生動表情,或是讓歷史人物更變得栩栩如生,利用 AI 模型即可將靜態人物照片變成擁有表情的動態影像。LivePortrait AI 模型可以分析影片中的人物表情,並將其套用至靜態照片,產生具有與影片人物相同表情的動態人像。
Thumbnail
最近在嘗試使用不同的AI生圖方式混合出圖的方式,採用A平台的優點,並用B平台後製的手法截長補短,創造出自己更想要的小說場景,效果不錯,現在以這張圖為例,來講一下我的製作步驟。
Thumbnail
偽紀錄系列,已經疲累的心靈,於混亂的時空蒐集自己存在的碎片,在數位的世界重組,讓鏡中映射出那個「完美」的你,取代我繼續走下去。
Thumbnail
上圖是根據彩色故事腳本生成的照片與草圖。 運用圖生圖的原理,把AI視覺故事腳本的其中一個畫面。擷取出來。 輸入重新繪製這張圖片 AI 會自然根據草圖,重新繪製元素一樣的精細畫面。
Thumbnail
可能包含敏感內容
鏡像計畫啟動,虛擬的完美自我複製,或許是 AI 世代必然的收束,但除了潮流外,似乎還有甚麼在驅使著我?
Thumbnail
本篇文章參考 Youtube 影片(...二次元模型...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建