邁向 AITuber 之路: talking-head-anime + stable-diffusion

更新於 發佈於 閱讀時間約 7 分鐘

AI 魔法禁書目錄

這次我要來介紹如何使用 talking-head-anime 創建自己的 vtuber 角色,talking-head-anime 是一個超酷的開源軟體,只要輸入一張圖片,並且搭配手機的鏡頭去偵測臉部動作,他就可以直接把你的表情和動作套用到輸入的圖片上。talking-head-anime 的作者最早在 2019 年就已經釋出第一個版本,目前是到第三個版本。

環境準備

talking-head-anime-3-demo

首先要先安裝 talking-head-anime-3-demo,這個專案是用 python 寫的,有提供 conda 的 environment,所以只要執行下面這行指令就可以安裝。
conda env create -f environment.yml
沒有 conda 的話,可以先去 miniconda 官網下載安裝,conda 有分 anaconda 和 miniconda,anaconda 包含了很多預設套件比較肥,所以大家通常都是裝 miniconda。
安裝完成後,要跑之前記得要用 conda activate 切換到對應的 python venv 環境。
conda activate talking-head-anime-3-demo

iFacialMocap

接著,為了要偵測我們臉部的表情,所以要安裝一個手機的 App 叫做 iFacialMocap,不過他只有 IOS 的版本,或是也可以下載桌面版(但我沒測試過桌面版)。IOS 的 App 有分免費版和付費版的,免費版的叫做 iFacialMocapTr 會有廣告,付費版的是 iFacialMocap 要價 190 台幣,不是很貴。

Stable Diffusion

再來,我們還需要 Stable Diffusion 來幫我們畫出我們 AITuber 的皮,我習慣是用 AUTO1111 的 Stable-Diffusion-Webui,這裡我就不多作介紹,畢竟不是本篇的主軸。

OBS

最後,我們需要使用到 OBS 來幫助我們串流到 youtube, twitch 或是直接錄影都可以,前往 OBS 官網 下載。

工作流程

Stable Diffusion 畫皮

第一步,我們要先用 stable diffusion 畫出我們 AITuber 的皮,但這個皮也不能隨便畫,官方 repo 有說明,要像下面這樣,把角色擺在適當的位置才能跑出好的效果,並且背景的部分要是透明色(不是白色)。
credit: https://github.com/miketako3/talking-head-anime-3-demo-for-aituber
所以這邊我們利用 ControlNet 的 openpose 來把角色固定在官方建議的位置如下,Control Weight 我設定為 0.7,因為我想說不要綁得太死,給他一點發揮的空間,如果位置一直飄掉的話,可以把它調高一點。
ControlNet fix position
接下來 prompts 的部分,以下供參考。
1girl, solo, masterpiece, best quality, highres,
upper body, (simple background, white background),
(你想畫的角色的描述...)
結果出來之後,我是用 Clip Studio 修圖+去背,最後再把圖片縮小回 512x512 就完成了,我做的 AITuber 皮如下(就是一張圖片)。

串起來

畫好皮之後,我們就可以來把所有東西串起來了,首先打開進到 talking-head-anime-3-demo 的資料夾,切換到正確的 python venv 環境。
conda activate talking-head-anime-3-demo
接著執行腳本
python.exe tha3/app/ifacialmocap_puppeteer.py --model standard_half
他提供了四個模型可以選擇,有 standard_float(預設), separable_float, standard_half, separable_half 四種,float 是用單精度浮點數(32 bytes)儲存模型,half 是用半精度浮點數(16 bytes)儲存模型,所以 half 的模型大概會比 float 還小一半,如果你的硬體不好就選 half 的模型,但是它的效果可能會稍差一點,一般是不會差太多啦,而 standard 和 separable 的差別作者好像沒有提到,我就不知道了。
跑起來就會像下面這樣。
talking-head-anime-3-demo
接著,就可以來打開 iFacialMocap 如下
iFacialMocap
把最上面那行顯示的 ip 位址複製下來或是記起來(這裡沒有顯示的話,也可以去手機的設定查看 ip 位址),寫到 talking-head-anime-3-demo 最上面 Capture Device IP 這裡,然後按下右邊的 START CAPTURE!
最後選擇 Load Image 載入我們剛剛做好的皮就大功告成了!
talking-head-anime-3-demo setup complete
talking-head-anime-3-demo + iFacialMocap

OBS

OBS 的設定也非常簡單,我們拉一個視窗擷取出來,然後把它裁剪到只剩右邊的人物(按 Alt 拖動邊框)
OBS crop window
接著,把背景設成綠色的,就是傳說中的綠幕。
talking-head-anime-3-demo set green background
在視窗擷取中點右鍵濾鏡,新增一個色度鍵(Color Key),關鍵顏色類型選綠色。
OBS Color Key Filter
最後把我們的 AITuber 拉到右下角適當的位置就完成啦。

總結

在這篇文章中,我們介紹了如何利用 talking-head-anime 來讓 stable diffusion 產出的人物動起來,並且可以在 OBS 中進行串流。相比於 Live2D,因為 talking-head-anime 需要實時跑模型去讓人物動起來,硬體需求還是稍微高一點,但優點就是只需要一張圖片即可。不過整體而言,離真正全自動的 AITuber 還是有一段距離,現在只是畫個可以動的皮出來xD

如果這篇文章對你有幫助,不要吝嗇給我一個大大的愛心❤️
歡迎追蹤我的 twitter、pixiv、patreon😆
https://linktr.ee/novelaimagician
記錄我學習 AI 繪圖的筆記、心得、還有教學文章。偏好線條清晰的動漫畫風。AI 繪圖發展好快,我快學不動了,趕緊記下來😳
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
novelaimagician的沙龍 的其他內容
這次我要來介紹如何利用 TemporalKit + EBSynth 來生成影片,雖然說是生成影片,但其實比較算是 video2video,基於原有影片的動作用 AI 產生不同風格的影片。
這次我要來介紹如何利用 TemporalKit + EBSynth 來生成影片,雖然說是生成影片,但其實比較算是 video2video,基於原有影片的動作用 AI 產生不同風格的影片。
你可能也想看
Google News 追蹤
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
創建虛擬角色想要賦予生動表情,或是讓歷史人物更變得栩栩如生,利用 AI 模型即可將靜態人物照片變成擁有表情的動態影像。LivePortrait AI 模型可以分析影片中的人物表情,並將其套用至靜態照片,產生具有與影片人物相同表情的動態人像。
Thumbnail
最近有空時就在看如何使用AI作圖的方式製作出有魄力的動作與構圖,恰巧在Civitai這個AI作圖網站上找到了一些有趣的人物姿態,因此發想了一些構圖,依照這些構想做出來的圖效果還算可以接受,因此在這邊記錄一下過程與步驟。
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
AnimeGANv3 免費開源模型,可將照片轉換為漫畫風格的圖像,提供宮崎駿、新海誠、英雄聯盟、美國漫畫、韓國流行等多種漫畫風格,支援自動提取人物臉部,方便製作漫畫大頭貼。
Thumbnail
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
Thumbnail
DeepAI 提供「聊天機器人」及「生成圖像」兩種服務,不用註冊就可以免費使用,聊天機器人有多種角色做選擇,能為你的創作和思考過程帶來新的靈感;至於圖像生成功能,也提供多種風格供你選擇,讓你每次生成的圖像都有不同的風格和特色。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
這個地址可以讓我一鍵安裝目前所有的開源AI應用,包括: AI繪圖工具:Stable Diffusion的Web UI和comyUI 視訊換臉工具:Face Fusion 聲音課程工具:RVC和XTDS 記住這個地址,它可以讓你一鍵安裝目前所有的開源AI應用。不用管環境配置需要哪一個,直接點擊
Thumbnail
現代社會跟以前不同了,人人都有一支手機,只要打開就可以獲得各種資訊。過去想要辦卡或是開戶就要跑一趟銀行,然而如今科技快速發展之下,金融App無聲無息地進到你生活中。但同樣的,每一家銀行都有自己的App時,我們又該如何選擇呢?(本文係由國泰世華銀行邀約) 今天我會用不同角度帶大家看這款國泰世華CUB
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
創建虛擬角色想要賦予生動表情,或是讓歷史人物更變得栩栩如生,利用 AI 模型即可將靜態人物照片變成擁有表情的動態影像。LivePortrait AI 模型可以分析影片中的人物表情,並將其套用至靜態照片,產生具有與影片人物相同表情的動態人像。
Thumbnail
最近有空時就在看如何使用AI作圖的方式製作出有魄力的動作與構圖,恰巧在Civitai這個AI作圖網站上找到了一些有趣的人物姿態,因此發想了一些構圖,依照這些構想做出來的圖效果還算可以接受,因此在這邊記錄一下過程與步驟。
Thumbnail
生成式AI工具即將邁入三年,除了ChatGPT以外,也進化了許多GenAI工具,如Sora影片生成等。 你知道Stable Diffusion嗎? 從詠唱魔法師Prompts的玩家或職務,AI浪潮持續推進下,SD-WebUI並沒有停滯或被淘汰。 結果告訴了我們一件事情...
Thumbnail
Stable Diffusion 的 Mov2Mov 套件是一個非常強大的工具,讓你可以自動化和簡化視頻轉換過程。這個套件特別適合那些希望在視頻中進行面部替換、添加配件或改變角色外觀的人。這裡是關於這個套件的一些詳細介紹: 功能和優點 自動化視頻轉換: Mov2Mov 可以自動化視頻到
Thumbnail
AnimeGANv3 免費開源模型,可將照片轉換為漫畫風格的圖像,提供宮崎駿、新海誠、英雄聯盟、美國漫畫、韓國流行等多種漫畫風格,支援自動提取人物臉部,方便製作漫畫大頭貼。
Thumbnail
Character.AI發佈新功能Character Voice,nVidia在GTC 2024也介紹與Ubisoft巴黎工作室合作的NEO NPC專案,OpenAI註冊了「voice engine」和「digital voice assistants」這兩商標,到底暗示了什麼AI發展趨勢?
Thumbnail
DeepAI 提供「聊天機器人」及「生成圖像」兩種服務,不用註冊就可以免費使用,聊天機器人有多種角色做選擇,能為你的創作和思考過程帶來新的靈感;至於圖像生成功能,也提供多種風格供你選擇,讓你每次生成的圖像都有不同的風格和特色。
Thumbnail
這篇要介紹AI生成影片的兩個方式:SVD 跟 AnimateDiff。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
這個地址可以讓我一鍵安裝目前所有的開源AI應用,包括: AI繪圖工具:Stable Diffusion的Web UI和comyUI 視訊換臉工具:Face Fusion 聲音課程工具:RVC和XTDS 記住這個地址,它可以讓你一鍵安裝目前所有的開源AI應用。不用管環境配置需要哪一個,直接點擊