用 SO-VITS-SVC 打造 AI 歌姬,零基礎也能輕鬆上手!

更新於 發佈於 閱讀時間約 6 分鐘

SO-VITS-SVC 實戰經驗分享:從零開始打造我的專屬AI歌手




AI 唱歌系列之一開始的契機


讓 AI 用我的聲音唱歌:SO-VITS-SVC 入坑之旅


大家好!我從來沒想過自己會掉進 AI 這個深坑,結果我偏偏一頭栽進去了!從完全不懂什麼叫「命令行」、什麼是Python ,跌跌撞撞、重來無數次,花了很多的時間和錢(畢竟我那拉胯的電腦跟蝸牛一樣,只能靠雲端幫忙跑模型)。當然也得說清楚,這是一段「你以為會崩潰,沒想到更崩潰」的學習旅程。

網路上雖然零零散散有些指導,但對像我這樣的 AI 蒟蒻來說就像看天書。所以,我才決定扛起分享的重任,跟大家聊聊我的入坑心得。

raw-image

此圖是我用ideogram2.0所生成。



什麼原因讓我開始?


說到我踏入這個坑的理由,那得追溯到幾年前一個唱歌 APP(名字我就不說了,贊助我再考慮廣告 XD)。當時下載來玩了一下,後來沒多久就棄用了。不過我一直很愛唱歌又很愛聽歌,雖然唱得像音癡,但這款 APP 還是一直霸占著我的手機記憶體,像清不掉的口香糖一樣。

一開始,我很懷疑:「機器人?唱人類的歌?你怕不是只會機械音『嗡嗡嗡』吧?」但耐不住好奇心(這玩意兒害死貓,更有效地害死了我)。於是試了試,哎唷,就是這麼一試啊,我成功用自己的聲音挖了個坑,然後自己跳進去了。

系統要求我唱 4-5 首歌,來給 AI 做學習數據。等了十分鐘後,APP 彈出一個通知:「AI 訓練完成。」我的好奇心瞬間爆棚,點開它唱的第一首歌的瞬間,我腦子只飄過幾個大字:這也唱得太好了吧!而且,居然連那種常見的「沒感情 機械感」都幾乎察覺不到!


驚艷的體驗


我以為自己能批評一下技術沒做到位,結果 AI 硬是把我的耳朵震懵了。學了不到十首歌,它居然能做到 90% 還原我的聲音,甚至唱到我平時會走音、破音的地方都感覺唱的比我好!老實說,有點受到打擊呀(天哪,比真人還真人!)。

我又試了幾種不同類型的歌,AI 唱得都相當不錯。快歌、慢歌、抒情歌,我還給它來段 RAP!(結果是AI不太會RAP~)。於是,我樂呵呵地把 AI 唱的歌發給朋友們試聽,還一本正經地問:「你們覺得像我的聲音嗎?」結果朋友都以為是我本人唱的。

這一刻,我腦補了無數個場景:我的 AI 歌姬可以唱周杰倫、可以唱 Adele,還可以初音?甚至唱幾句廣告詞都行!簡直是全能選手,給虛擬角色一個靈魂,實現你無限的聲音夢想!

這簡直打開了我新世界的大門!原來AI技術已經發展到如此地步,可以創造出如此真實又富有情感的歌聲!

但完美背後總有瑕疵——這款 APP 功能雖強,不過有個小硬傷:只能在 APP 裡玩。對於這一點,作為一個愛找麻煩給自己的人,我開始思考:「我能不能把 AI 翻唱帶出 APP 呢?」然後,我就像掉進兔子洞的愛麗絲,進入了 AI 技術的奇幻世界。



AI 的四大應用領域:


除了唱歌,AI 早就燒遍了藝術圈與科技界。看看它們在以下這四大領域有多逆天:

1.繪圖(AI繪圖/生成美術):

  • 用 GANs 和擴散模型搞了一堆畫作出來。畫得比神還神,但偶爾也會翻車,畫出一些「鬼畜」作品。不信?讓它畫個「普通人吃飯」試試看!

2.寫作(AI文本生成):

  • GPT 系列簡直無敵,可以幫你寫情書、寫作業,寫請假條,樣樣精通。以後老闆可能要擔心員工用 AI 寫辭職信了!

3.影片生成(AI影像生成/編輯):

  • 動畫、特效、影片混剪,簡直是視覺盛宴。以後演員可能只需要擺擺 Pose,剩下的都交給 AI 就好。

4.聲音學習(AI聲音生成/處理):。

  • AI 配音、AI 音樂,已經不是什麼新鮮事了。但 AI 唱歌?這可是個深坑!小心你的 AI 歌姬比你更吸粉!。




後記:SO-VITS-SVC 的魅力


在連續數個不眠之夜後,我的注意力全被一款項目吸引了:SO-VITS-SVC

它是一款開源的 AI 唱歌模型,免費又好用,給我無限的想像空間。

有些人總是把 AI 唱歌模型和 AI 說話模型搞混,雖然它們都屬於聲音克隆技術,但用途可是天差地別啊!如果你想讓 AI 開啟歌神模式,那就得乖乖選擇專門的唱歌模型來訓練,否則效果可能會讓你懷疑人生;而如果只是想讓 AI 說幾句話,那就不用這麼麻煩,不需要派唱歌模型上場,說話模型就可以滿足你所有需求。

順帶一提,這款唱歌模型對硬體的要求可不低,沒有點家底的電腦,可能連 AI 都會嫌棄你!(我就是被嫌棄的那位..),跑是可以跑,但是一步要600多秒.....走了2步我就果斷放棄本地訓練了。


接下來我會分階段分享 SO-VITS-SVC 的訓練方法、調參技巧、以及我遇到的各種問題和解決方案,幫助你從零開始打造自己的 AI 歌姬」。


下一篇我會分享如何準備訓練數據、環境部署以及如何選擇合適的雲端平台」。


PS:第一次寫心得文章,有點小緊張,比我的 AI 第一次唱歌還緊張。如果文章有任何問題,歡迎指教!,謝謝觀看文章的你們。


留言
avatar-img
留言分享你的想法!
avatar-img
Violet的沙龍-聖誕節快樂!
4會員
4內容數
Hello~ 歡迎來到Soul in the system。我主要研究心理學,但對於AI很有興趣,這裡目前主要是分享關於AI的各種知識,將來希望能分享心理學。 心理學跟AI是可以連結的,歡迎同好~
2024/12/24
本文探討使用SO-VITS-SVC進行AI聲音模型訓練的實用經驗,重點在數據集的準備與預處理,包括音頻切片、響度匹配和訓練參數設置等步驟。本文提供了詳細的流程和注意事項,旨在幫助讀者有效完成模型訓練,實現專屬的AI歌手打造。方法涵蓋了使用WebUI進行音訊處理和數據集組織,著重於音質保證和訓練效率。
Thumbnail
2024/12/24
本文探討使用SO-VITS-SVC進行AI聲音模型訓練的實用經驗,重點在數據集的準備與預處理,包括音頻切片、響度匹配和訓練參數設置等步驟。本文提供了詳細的流程和注意事項,旨在幫助讀者有效完成模型訓練,實現專屬的AI歌手打造。方法涵蓋了使用WebUI進行音訊處理和數據集組織,著重於音質保證和訓練效率。
Thumbnail
2024/12/24
本文分享瞭如何從零開始打造專屬AI歌手的實戰經驗,特別針對數據集的錄製和準備過程。將討論錄製數據集的基本要求、數據處理流程,包括伴奏分離、去除和聲、去混響等步驟。文章提供了具體的操作建議,幫助讀者有效準備高質量的數據集,為訓練聲音模型鋪路。
Thumbnail
2024/12/24
本文分享瞭如何從零開始打造專屬AI歌手的實戰經驗,特別針對數據集的錄製和準備過程。將討論錄製數據集的基本要求、數據處理流程,包括伴奏分離、去除和聲、去混響等步驟。文章提供了具體的操作建議,幫助讀者有效準備高質量的數據集,為訓練聲音模型鋪路。
Thumbnail
2024/12/24
本篇文章分享瞭如何從零開始使用SO-VITS-SVC構建專屬AI歌手的實戰經驗。重點介紹了數據集的準備和環境的部署,包括硬體需求、Python環境設置及模型訓練的注意事項。作者還分享了雲端訓練和本地訓練的對比,並提醒讀者規範使用資料集避免侵權問題。透過這篇文章,您將獲得構建AI音樂模型的指引和技巧。
Thumbnail
2024/12/24
本篇文章分享瞭如何從零開始使用SO-VITS-SVC構建專屬AI歌手的實戰經驗。重點介紹了數據集的準備和環境的部署,包括硬體需求、Python環境設置及模型訓練的注意事項。作者還分享了雲端訓練和本地訓練的對比,並提醒讀者規範使用資料集避免侵權問題。透過這篇文章,您將獲得構建AI音樂模型的指引和技巧。
Thumbnail
看更多
你可能也想看
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
創作者營運專員/經理(Operations Specialist/Manager)將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力,找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。
Thumbnail
使用AI寫歌確實是一個新興的創作方法。 以下是使用AI寫歌的基本步驟和所需能力: 步驟: 1. 選擇AI工具:挑選適合的AI歌曲創作工具或平台。 2. 輸入初始參數:設定風格、情感、主題等基本參數。 3. 生成初稿:讓AI生成歌曲的初始版本,包括旋律和歌詞。 4. 審核和編輯:檢查AI生
Thumbnail
使用AI寫歌確實是一個新興的創作方法。 以下是使用AI寫歌的基本步驟和所需能力: 步驟: 1. 選擇AI工具:挑選適合的AI歌曲創作工具或平台。 2. 輸入初始參數:設定風格、情感、主題等基本參數。 3. 生成初稿:讓AI生成歌曲的初始版本,包括旋律和歌詞。 4. 審核和編輯:檢查AI生
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
今天我要跟大家聊聊 GPT-SoVITS 的用途及其功能。 這個開源的聲音克隆專案,融合了業內頂尖的語音合成工具——GPT (Generative Pre-trained Transformer)模型,和SoVITS(Speech-to-Video Voice Transformation Sys
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
使用人工智慧生成模型可以創作各種媒體內容,MusicGen Web 是一個基於瀏覽器的免費 AI 音樂生成工具,訪問網頁,輸入文字描述即可創作獨特的音樂,包括流行、爵士、電子、古典等多種風格。
Thumbnail
使用人工智慧生成模型可以創作各種媒體內容,MusicGen Web 是一個基於瀏覽器的免費 AI 音樂生成工具,訪問網頁,輸入文字描述即可創作獨特的音樂,包括流行、爵士、電子、古典等多種風格。
Thumbnail
作為「極端值」來制肘 AI,似乎不錯。
Thumbnail
作為「極端值」來制肘 AI,似乎不錯。
Thumbnail
Suno AI 是一款基於人工智能的音樂生成工具,使用深度學習技術訓練出的人工神經網絡模型,能讓任何人免費使用文字描述生成對應的音樂作品。本文介紹了Suno AI的特點、用法、影響和用途,並展望了人工智能在音樂創作中的潛在作用。
Thumbnail
Suno AI 是一款基於人工智能的音樂生成工具,使用深度學習技術訓練出的人工神經網絡模型,能讓任何人免費使用文字描述生成對應的音樂作品。本文介紹了Suno AI的特點、用法、影響和用途,並展望了人工智能在音樂創作中的潛在作用。
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News