大家好!我從來沒想過自己會掉進 AI 這個深坑,結果我偏偏一頭栽進去了!從完全不懂什麼叫「命令行」、什麼是Python ,跌跌撞撞、重來無數次,花了很多的時間和錢(畢竟我那拉胯的電腦跟蝸牛一樣,只能靠雲端幫忙跑模型)。當然也得說清楚,這是一段「你以為會崩潰,沒想到更崩潰」的學習旅程。
網路上雖然零零散散有些指導,但對像我這樣的 AI 蒟蒻來說就像看天書。所以,我才決定扛起分享的重任,跟大家聊聊我的入坑心得。
此圖是我用ideogram2.0所生成。
說到我踏入這個坑的理由,那得追溯到幾年前一個唱歌 APP(名字我就不說了,贊助我再考慮廣告 XD)。當時下載來玩了一下,後來沒多久就棄用了。不過我一直很愛唱歌又很愛聽歌,雖然唱得像音癡,但這款 APP 還是一直霸占著我的手機記憶體,像清不掉的口香糖一樣。
一開始,我很懷疑:「機器人?唱人類的歌?你怕不是只會機械音『嗡嗡嗡』吧?」但耐不住好奇心(這玩意兒害死貓,更有效地害死了我)。於是試了試,哎唷,就是這麼一試啊,我成功用自己的聲音挖了個坑,然後自己跳進去了。
系統要求我唱 4-5 首歌,來給 AI 做學習數據。等了十分鐘後,APP 彈出一個通知:「AI 訓練完成。」我的好奇心瞬間爆棚,點開它唱的第一首歌的瞬間,我腦子只飄過幾個大字:這也唱得太好了吧!而且,居然連那種常見的「沒感情 機械感」都幾乎察覺不到!
我以為自己能批評一下技術沒做到位,結果 AI 硬是把我的耳朵震懵了。學了不到十首歌,它居然能做到 90% 還原我的聲音,甚至唱到我平時會走音、破音的地方都感覺唱的比我好!老實說,有點受到打擊呀(天哪,比真人還真人!)。
我又試了幾種不同類型的歌,AI 唱得都相當不錯。快歌、慢歌、抒情歌,我還給它來段 RAP!(結果是AI不太會RAP~)。於是,我樂呵呵地把 AI 唱的歌發給朋友們試聽,還一本正經地問:「你們覺得像我的聲音嗎?」結果朋友都以為是我本人唱的。
這一刻,我腦補了無數個場景:我的 AI 歌姬可以唱周杰倫、可以唱 Adele,還可以初音?甚至唱幾句廣告詞都行!簡直是全能選手,給虛擬角色一個靈魂,實現你無限的聲音夢想!
這簡直打開了我新世界的大門!原來AI技術已經發展到如此地步,可以創造出如此真實又富有情感的歌聲!
但完美背後總有瑕疵——這款 APP 功能雖強,不過有個小硬傷:只能在 APP 裡玩。對於這一點,作為一個愛找麻煩給自己的人,我開始思考:「我能不能把 AI 翻唱帶出 APP 呢?」然後,我就像掉進兔子洞的愛麗絲,進入了 AI 技術的奇幻世界。
除了唱歌,AI 早就燒遍了藝術圈與科技界。看看它們在以下這四大領域有多逆天:
在連續數個不眠之夜後,我的注意力全被一款項目吸引了:SO-VITS-SVC。
它是一款開源的 AI 唱歌模型,免費又好用,給我無限的想像空間。
有些人總是把 AI 唱歌模型和 AI 說話模型搞混,雖然它們都屬於聲音克隆技術,但用途可是天差地別啊!如果你想讓 AI 開啟歌神模式,那就得乖乖選擇專門的唱歌模型來訓練,否則效果可能會讓你懷疑人生;而如果只是想讓 AI 說幾句話,那就不用這麼麻煩,不需要派唱歌模型上場,說話模型就可以滿足你所有需求。
順帶一提,這款唱歌模型對硬體的要求可不低,沒有點家底的電腦,可能連 AI 都會嫌棄你!(我就是被嫌棄的那位..),跑是可以跑,但是一步要600多秒.....走了2步我就果斷放棄本地訓練了。
接下來我會分階段分享 SO-VITS-SVC 的訓練方法、調參技巧、以及我遇到的各種問題和解決方案,幫助你從零開始打造自己的 AI 歌姬」。
下一篇我會分享如何準備訓練數據、環境部署以及如何選擇合適的雲端平台」。
PS:第一次寫心得文章,有點小緊張,比我的 AI 第一次唱歌還緊張。如果文章有任何問題,歡迎指教!,謝謝觀看文章的你們。