成果| 直接放開頭
隱隱約約有點 Gura 聲音的味道,但還有很大的提升空間。
使用之聲音素材的相關音樂作者與 VTubers 之連結如下:
<強風大背頭>(強風オールバック)原曲作者 Yukopi 的 YouTube 頻道 「鯊鯊」Gawr Gura(hololive 所屬)的 YouTube 頻道「菁櫻」 さくらみこ(hololive 所屬)的 YouTube 頻道
流程 | 我的第一次,稱不上是心得/教學
使用的 Google Colab 上的 webUI 介面,其作者的速成教學影片(英文):
總之先搞首歌曲的 mp3 或 wav 或 FLAC 檔案
辦法很多,請自己想辦法。
把歌聲和配樂拆成兩個聲音檔
最簡單暴力的方法就是上傳至 X-Minus 網站,讓其自動幫你拆。

但實際上我失敗了
但實際上 X-Minus 沒有成功幫我拆開,所以我是從 Git 下載了 Ultimate Vocal Remover GUI v5.5.1 安裝檔安裝該軟體:
安裝完後打開軟體介面如下:

Select Input 是選擇想要拆開的音源檔案
Select Output 是想存檔的路徑
除了 GPU Conversion 是我額外勾選的選項外,其他的選項我全部使用預設值。
點擊 Start Processing 就會開始拆分,靜等跑完即可。拆分出來的檔案(預設是 WAV 格式)標示 _(Vocals) 的是歌聲,_(Instrumental) 的是配樂。
準備訓練好的聲音 Cover 模型
這篇不談如何訓練,而是找現成的來用,我是從 Hugging Face 的 QuickWick 處下載的。
因為字母排序之故,Gura的需要點擊頁面底部的 Load more files 數次才會刷出來,然後下載。(如果知道直接搜尋找檔的方法,請務必留言教我,感謝!)
下載來的聲音 cover 模型是 .zip 檔案,不用解壓縮。
把聲音模型上傳至 Google Drive
接著要把聲音模型上傳至 Google Drive,以供接著要使用的軟體程式存取。可能其他雲端檔案分享服務也可以,但我沒試過。請注意:如果是放在 Google Drive,該檔案的權限需要設定成只要有分享連結者都可以讀取。
壓軸來了 - Easy GUI | 要來搞音樂啦
再來就是前往影片作者提供的 Google Colab webUI 了。

別懷疑,打開全是文字幾乎看不到任何圖形介面的地方,沒有跑錯,因為這是安裝頁面。我對 Colab 完全不熟悉,所以我也不知道這是安裝到我的 Google 空間去了還是安裝到本地的哪個地方?
總而言之,流程基本上就是跑每一個步驟 (Step) 的程序,絕大多數就是點擊那個像是播放鍵的小圖示,Step 1. 的在這:

點擊後圖示會變中間是方塊的:

Step 1. 請等方塊跑完變回三角,就是安裝完成。如果安裝失敗基本上就是系統軟硬體(很可能需要 NVIDIA 的顯卡)不支援,我沒有辦法幫忙。
Step 2. 就是提供剛才上傳至雲端的聲音模型連結,然後按下圖左上的圖示:

也是等到圖示從方塊變回三角形,且出現以下訊息時,即代表上傳成功:

進入啟動軟體的 Step 3.:

也是在Step 3.項目下找同樣的三角圖示按。

這次圖示變方塊後再等一會,上圖顯示程式碼的下方會出現一些程式碼,包括:

有用過 Stable Diffusion 的應該對第一行的網址很熟悉,意思是於本地打開。但實際上我用的時候打不開,只能點第二行的於公開網路上打開 webUI 的介面:

上圖中,各號碼的用途如下:
- 聲音模型 - 照理說會出現剛才 Step 2. 中提供之連結的模型。另外,如果想增加模型可以去左上方第二個分頁 Download Model 中操作,然後再回到 Inference 分頁點按 1 右邊的 Refresh
- 將稍早前拆分出來的歌聲拖曳至此以上傳 (Upload)
- 上傳成功後應該會出現在 3 的下拉式選單中,沒有的話點擊 3 右邊的 Refresh 試試看
- Convert,將 2/3 的歌聲轉換成聲音模型的歌聲。
- 轉檔成功後會出現在這裡,可點按右上角的 3個點小圖示下載(截圖中尚未出現)
祝大家 Cover 愉快!