多模態人類影片生成高度逼真動畫 OmniHuman-1 技術

AI.ESG.數位轉型顧問沈重宗

更新於 2025/03/24發佈於 2025/03/24閱讀時間約 5 分鐘

多模態人類影片生成高度逼真動畫

OmniHuman-1 技術解析

OmniHuman-1 是由字節跳動（ByteDance）開發的端到端多模態人類影片生成框架，可透過單一人物圖像與動作訊號（如音訊、影片或姿勢數據）生成高度逼真的人類動畫。其核心基於Diffusion Transformer（DiT）架構，結合混合條件訓練策略，解決傳統方法因高品質數據稀缺導致的限制。

主要功能與特點

單圖生成影片：僅需一張人物圖像（半身、全身或特寫），無需複雜數據集即可生成流暢動作。

多模態輸入支援：音訊驅動：同步口型、手勢與音樂節奏，適用於虛擬歌手或演講內容。

影片驅動：模仿特定動作（如舞蹈），或結合音訊與影片控制局部肢體。

泛用性：支援卡通、人造物體、動物，並適應不同長寬比（如直式9:16、正方形1:1）。

高真實度輸出：細節涵蓋光影、紋理與肢體協調，尤其在處理手部動作與持物互動時表現優異。

技術架構

模型設計： OmniHuman 主模型：整合文字、圖像、音訊、姿勢等輸入，透過Transformer區塊生成逐幀特徵。

混合條件訓練：分階段強化多模態處理能力：預訓練：文字到影片（T2V）與文字輸入。

階段性擴充：逐步加入圖像、音訊與姿勢數據。

運作流程：輸入圖像與動作訊號後，模型將訊號轉換為運動特徵，再透過DiT架構合成連續影格。

使用方式

輸入準備：上傳一張清晰人物圖像。

選擇動作訊號（例如：音檔、參考影片或姿勢數據）。

生成設定：可指定輸出的長寬比與風格（如寫實或卡通）。

輸出調整：依需求微調肢體動作或口型同步細節。

倫理與限制

潛在風險：可能被濫用於偽造名人影片或散布不實訊息，需嚴格審查生成內容。

技術限制：輸入圖像品質直接影響輸出真實度。

複雜場景（如多人互動）處理能力有限。

現況與發展

目前OmniHuman-1尚未公開服務，官方提醒防範詐騙資訊，未來將透過字節跳動或TikTok相關平台發布更新。

OmniHuman-1 詳細報告

OmniHuman-1 是字節跳動（ByteDance）開發的端到端多模態人類影片生成框架，能夠從單張人物圖像和動作訊號（例如音訊、影片或姿勢數據）生成高度逼真的人類動畫。它基於Diffusion Transformer（DiT）架構，並採用混合條件訓練策略，克服了傳統方法由於高品質數據稀缺而面臨的限制。

主要功能與特點

單圖生成影片：僅需一張人物圖像（可以是半身、全身或特寫）即可生成流暢自然的動作影片，無需複雜的數據集或多個影格。

多模態輸入支援：

音訊驅動：能夠精確同步口型、手勢與音樂節奏，適用於製作虛擬歌手或演講內容。

影片驅動：能夠模仿特定動作（例如舞蹈），或者結合音訊與影片來控制局部肢體運動。

廣泛的適用性：支援卡通、人造物體、動物等多種主題，並且可以適應不同的長寬比，例如直式 (9:16) 和正方形 (1:1)。

高真實度輸出：產生的影片在光影、紋理和肢體協調等細節方面都表現出色，尤其是在處理手部動作和持物互動時。

技術架構

模型設計：

OmniHuman 主模型：整合文字、圖像、音訊、姿勢等多種輸入，透過 Transformer 區塊生成逐幀特徵。

混合條件訓練：模型訓練分為多個階段，以強化多模態處理能力：預訓練：使用文字到影片（T2V）以及文字輸入。

階段性擴充：逐步加入圖像、音訊和姿勢數據。