辨別偽人,各顯神通【2022/10/6~10/8】

更新 發佈閱讀 4 分鐘

至目前為止,共寫了 3 篇文章回憶 SD 初次使用感受,提及安裝、文生圖、圖生圖。

這些文章都有個共同點 : 對於如何用 AI 生成人物圖像並未多著墨


因為那段時間大量使用文生圖試錯,各種歪七扭八的偽人圖片已經品鑑得夠多了,再試下去簡直是在玩偽人版的請出示證件。比起追求美麗樣貌再屢次為生成結果驚愕,不如直接輸入破滅、無序、渾沌的敘述反而得到人物與環境連結性較為自然的圖像。

結論是想讓 AI 生成人物在 512x768 尺寸限制內比較正常,得控制在 cowboy shot 到 upper body 之間的距離,若全身圖或小腿以下出框,AI 會產出臉部模糊、眼睛細節不對的面孔。某些提示詞譬如亞洲人,甚至會出現歐美普遍對黃種人的刻板印象──細細長長的瞇瞇眼。


顯然是模型問題,但我不得不思考獨顯 4GB 的筆電,是否也是影響 AI 生成品質的因素?

可是筆電才買來一個多月,為這種非本職的生活趣味採購新設備,有必要嗎?


幸好 10/5 圖生圖火車的嘗試,讓我有了新靈感 : 

搭配文生圖與圖生圖兩種功能來生成人物,窮人有窮人的玩法 !


簡單來說,當前筆電如果產出長寬大於 768px 的圖像有概率 out of memory

在此限制下,文生圖可能出現眼歪嘴斜、圖生圖 CFG 低則接近(受限)原圖結構、高則貼近敘述(跳脫原圖),全圖不夠大導致遮罩修復有時會因為空間太小 AI 不好發揮。

那如果先輸入所需 prompt 大量文生圖,再篩選其中少數人體結構正常的圖像去圖生圖,就能得到肢體(較)正常、五官(較)清晰的圖片 !


vocus|新世代的創作平台
vocus|新世代的創作平台
為什麼都是軍裝與廢墟背景?這樣AI再怎麼胡亂生成,只會凸顯戰況之激烈啊~

為什麼都是軍裝與廢墟背景?這樣AI再怎麼胡亂生成,只會凸顯戰況之激烈啊~


經過這套流程,有機會突破 Stable Diffusion 模型產出二次元風格人物表情模糊的缺陷,達到近似 2.5D 人物風格效果。但圖生圖不是 Controlnet canny 或 openpose,就算找到完美構圖,給 AI 跑一下發現怎麼前景變背景、人物變建築,因為 AI 不是用事物名稱去分類事物,而是掌握整張圖的特定規律再來加雜訊除雜訊。

vocus|新世代的創作平台

觀察以電影《愛國者行動》維基頁面海報為底圖,圖生圖產出的成品,可發現原本海報標題、馬克華伯格背影都被 AI 當成建築物。所以這個階段 AI 生成就是乍看氣氛到了,但怎麼引導它做出正確的形象、需求的構圖,明顯不夠直觀。好處在於同樣花時間,用在按鈕抽卡等結果總比開圖層勾線著色不費工夫,只要用戶謹記同一件衣料 AI 看起來像棋盤稿紙綠豆糕,你聽你的鳥鳴、AI 看 AI 的日出,彼此都會有等量的美的感受。


不要執着於外相、虛相而偏離了 AI 生成隨機性本質,偽人不也展現出強韌生命力的美~?


如此鑽研幾天後,2022/10/8,我看見 Waifu Diffusion v1.3 釋出的公告。

使用了 680,000 張高解析度 Danbooru 影像訓練 10 個 Epoch,專門用來生成高品質二次元動漫角色圖像。


果然專業人士有專業人士的玩法啊 !


留言
avatar-img
Bsh的沙龍
3會員
50內容數
記錄我在 2022 年 9 月之後使用 AI 生成圖像的嘗試。 這個主題總有一天會沒東西好寫,那就走一步算一步吧...…
Bsh的沙龍的其他內容
2025/04/29
既然 BiliBili 上分享的 LoRA 號稱可一鍵生成漫畫,我決定只寫 prompt 來引導 AI 生成漫畫頁,直到足以拼湊一段劇情為止,再來計算總共生成多少張、又從中採用多少張。
Thumbnail
2025/04/29
既然 BiliBili 上分享的 LoRA 號稱可一鍵生成漫畫,我決定只寫 prompt 來引導 AI 生成漫畫頁,直到足以拼湊一段劇情為止,再來計算總共生成多少張、又從中採用多少張。
Thumbnail
2025/04/22
或許舊作品消滅與 AI 生成風潮,只是證實內心對圖像價值的質疑。諷刺的是,我竟因為懶得開 SD 、漫無目的上網而看到新的可能性。
Thumbnail
2025/04/22
或許舊作品消滅與 AI 生成風潮,只是證實內心對圖像價值的質疑。諷刺的是,我竟因為懶得開 SD 、漫無目的上網而看到新的可能性。
Thumbnail
2025/04/15
測過 ChatGPT 寫提示的效果,我再無懸念,自己目前的流程問題開張 Google sheet 便能解決,用不著 AI。
Thumbnail
2025/04/15
測過 ChatGPT 寫提示的效果,我再無懸念,自己目前的流程問題開張 Google sheet 便能解決,用不著 AI。
Thumbnail
看更多
你可能也想看
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
AI 創作內容 (AIGC) 技術突飛猛進,人類已經越來越難辨識眼前所見照片、影片的真實度。為了讓使用者可以區別哪些是由 AI 產生的「非真實內容」,進而信任圖片的真實性,如:微軟、Adobe、Google、Midjourney、Nikon…等 AI 技術大廠紛紛建立起 AI 內容識別技術,幫助使用
Thumbnail
AI 創作內容 (AIGC) 技術突飛猛進,人類已經越來越難辨識眼前所見照片、影片的真實度。為了讓使用者可以區別哪些是由 AI 產生的「非真實內容」,進而信任圖片的真實性,如:微軟、Adobe、Google、Midjourney、Nikon…等 AI 技術大廠紛紛建立起 AI 內容識別技術,幫助使用
Thumbnail
可別以為這看起來沒什麼,在近日嚴格到人神共憤的系統設限修改後,特定動作、長相、無裝都被納入限制範圍而很難生成圖片。在不斷被紅標屏蔽、陸續被封鎖而無法生成圖片數十小時之後,寫下這篇文章和各位讀者分享我的發現。 「內行人」一定會問:明明有其他功能更強大、更方便生成「想要」的(不方便明說的)美圖的app或
Thumbnail
可別以為這看起來沒什麼,在近日嚴格到人神共憤的系統設限修改後,特定動作、長相、無裝都被納入限制範圍而很難生成圖片。在不斷被紅標屏蔽、陸續被封鎖而無法生成圖片數十小時之後,寫下這篇文章和各位讀者分享我的發現。 「內行人」一定會問:明明有其他功能更強大、更方便生成「想要」的(不方便明說的)美圖的app或
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
現AI時代我們常見的生成影像是如何製作出來的,或許你已經開始熟悉AI“假臉”的風格。但由于現在網路上大量流傳的多數是以DALL-E或是Stable Diffiusion+幾個特定的LoRA所生成的結果。以至於人們越來越有識別真假照片的能力。但或許你不知道的是,早在幾年前純粹用GAN生成技術所產出的人
Thumbnail
今日我們使用一個也是很簡易的,以ai來抓取生成【圖生圖】,依照你放入的畫風,能夠實現各種風格觸感而不被發現是AI畫的,真是便利的工具,俗稱: AI圖生圖
Thumbnail
今日我們使用一個也是很簡易的,以ai來抓取生成【圖生圖】,依照你放入的畫風,能夠實現各種風格觸感而不被發現是AI畫的,真是便利的工具,俗稱: AI圖生圖
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
Tengr.ai 圖生圖 咒語:Pick up Robot
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
AI生成圖片是一個挑戰性的任務,雖然AI能理解文字需求,但仍無法完全想像心中的理想畫面。使用中文描述AI的生成效果約為5成到6成,而加入擬人化的描述可以讓AI更好地理解需求。無論如何,AI生成圖片仍面臨許多挑戰,需要更多的研究與嘗試。
Thumbnail
研究AI生成美女圖像 研究AI生成美女圖像是一個很有趣的方向,特別是對於喜歡速寫但很少畫美女的我來說。AI生成圖像的技術不僅可以幫助創作出我心中所想的形象,還可以作為靈感的來源,讓我在速寫中嘗試新的風格和主題。 基於大量的數據訓練 AI生成的圖像通常基於大量的數據訓練,可以創造出各種不同風格和
Thumbnail
研究AI生成美女圖像 研究AI生成美女圖像是一個很有趣的方向,特別是對於喜歡速寫但很少畫美女的我來說。AI生成圖像的技術不僅可以幫助創作出我心中所想的形象,還可以作為靈感的來源,讓我在速寫中嘗試新的風格和主題。 基於大量的數據訓練 AI生成的圖像通常基於大量的數據訓練,可以創造出各種不同風格和
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News