HeyGem 免費開源AI數字人
開源項目的中文說明文檔,主要內容包括項目介紹、使用方式、安裝指南、API接口。
項目概述
HeyGem 是一個開源的數字人視頻合成工具,旨在為用戶提供離線操作的能力,能夠精確克隆用戶的外貌和聲音。用戶可以通過文字和語音驅動虛擬形象進行視頻製作,保護隱私的同時享受高效的數字體驗。
使用方式
HeyGem 提供兩種服務方案:
開源本地部署
適合技術型用戶,需具備深度學習框架經驗。
需要購買 GPU 伺服器。
維護成本較高,但可完全控制軟體功能。
數字人/克隆音 API 接口服務
適合業務型用戶,快速集成。
無需購買 GPU 伺服器,維護簡單。
不能直接修改源代碼,靈活性較低。
核心功能
外貌與聲音克隆:高精度捕捉外貌特徵和聲音。
文字與語音驅動:支持自然語言處理,將文字轉換為語音。
高效視頻合成:實現音視頻同步。
多語言支持:支持八種語言。
安裝指南
前置條件
硬碟要求:
D 盤:需大於 30G 空閒空間。
C 盤:需大於 100G 空閒空間。
系統要求:Windows 10 19042.1526 或更高版本。
推薦配置:CPU:第13代英特爾酷睿 i5-13400F。
記憶體:32G 及以上。
顯卡:NVIDIA RTX-4070。
安裝步驟
安裝 WSL 和 Docker。
使用 Docker 安裝伺服器端。
下載並安裝客戶端。
API 接口
提供模特訓練和視頻合成的 API,用戶可以通過本地地址調用相關接口。
常見問題
確保所有服務處於運行狀態。
檢查 NVIDIA 顯卡及驅動安裝情況。
更新到最新版本以解決可能的問題。