TextToSpeech-WaveNet 後日談

閱讀時間約 4 分鐘

一.引言

  距離上篇已經快過一個月了,這個月我也沒閒著,我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試,也比較與其他人實現的效果,又發現了幾個實作上可能造成困難的點,現在就跟各位分享一下~

二.問題點

  • 訓練及預測真的太久了 :

  目前我使用的是 NVIDIA 2080ti 進行訓練,光是訓練一段 4 秒的音頻,就要花費好幾個小時,而預測也需要 20 分鐘以上。更糟糕的是,預測時經常會聽到一堆雜音,需要反覆調整訓練,來回幾次就耗掉一整天。因此,實際應用上,使用雲端多 GPU 進行訓練可能會是一個更具性價比的方法。

  • GPU記憶體的占用 :

  根據不同的設計,網路一次能處理多少音訊受限於顯卡記憶體大小,2080ti 有 11 GB,運行時若是餵入長度為24000的音訊(若以16000採樣頻率來看的話就是1.5秒的長度),就會占用 8 GB左右了,若是記憶體不足,單次能訓練的音訊長度就會變短,會讓整體收斂速度下降,甚至無法收斂。

  • 訓練及預測時的方法不一致 :

  上篇有提到我們訓練時是使用正解作為輸入,但預測時是用一個啟動張量推動,讓他能一個一個產生新的音訊結果,但是這就會造成一個問題 -- 若是我一開始就預測的很爛,那麼後面產生的也不會是好東西,要解決這個問題也很簡單,給予足夠多樣的訓練資料讓模型的泛化性提高,但......愈多的資料就代表收斂的時間愈長,也代表花的時間愈多,所以你知道的,兩個禮拜就這麼過去了不是在練等呦

  • 中文與英文的複雜度不一致 :

  進行實驗的過程中,在同樣條件下,英文音訊的收斂成效比中文的好,我認為這是語言組成不同導致的,有更複雜音節的語言得付出更長時間的訓練時間。

  • 噪聲的優化

  在實驗途中,時常發現儘管已經收斂,但是試聽時還是有大量噪聲混雜,這部分需要進一步優化,可能涉及到改進模型結構或使用更高品質的數據進行訓練。

三.後續改進方案

  • 使用雲端多 GPU 訓練

  使用雲端多 GPU 進行訓練可以大大縮短訓練時間,提高訓練效率。此外,雲端服務提供的計算資源更加靈活,可以根據需求隨時擴展(如之前介紹的AWS),適合進行大規模的音訊數據訓練。

  • 混合精度訓練

  混合精度訓練技術(Mixed Precision Training)可以有效地減少訓練過程中的記憶體佔用,並加快訓練速度。這種方法使用浮點16(FP16)和浮點32(FP32)混合進行計算,從而在不影響模型性能的前提下提高計算效率。

  • 模型壓縮技術

  可以考慮使用模型壓縮技術,如知識蒸餾(Knowledge Distillation)、模型剪枝(Pruning)和量化(Quantization),來減少模型的大小和計算量,從而提高預測速度和減少記憶體佔用。

  • 使用更高效的架構

  除了 WaveNet,可以考慮使用更高效的語音合成架構,如 Tacotron 2 或 Transformer TTS,這些模型在生成質量和效率上都有不錯的表現。特別是 Transformer 架構,由於其強大的自注意力機制,能更好地捕捉語音的長距依賴特性。

  • 使用正則化技術

  正則化技術如 Dropout、Layer Normalization 和 Batch Normalization 可以幫助模型更好地泛化,減少過擬合,從而在面對不同語音數據時能有更穩定的表現。

  • 數據預處理與增強

  除了增加數據多樣性,還可以對訓練數據進行預處理和增強,如噪聲過濾、音高變換、時間拉伸等,這樣可以使模型更好地適應不同的語音特徵,從而提高合成效果。

  • 後處理

  在模型生成音訊後,可以使用噪聲過濾技術來減少噪聲。例如,使用頻譜減法或自適應噪聲抑制技術來提高音訊的清晰度。此外,可以考慮對生成的音訊進行後處理,如使用聲學模型進行重建或使用音訊增強技術來進一步提高音訊質量。

四.結語

  這次花了好長的時間來好好研究音訊重建,這裡頭的坑比我想像中還要多,雖然我列出了大量的修改方向,但我應該不會花太多時間去測試及比較,因為目前學習的目的是接觸更多之前沒接觸過的領域,我不希望在同一個主題花費太多時間,未來若真的需要專研時再好好研究,加上音訊領域目前發展挺成熟,在已經有車子的情況下,我就不造這輪子了,接下來會回到主題,去探討TTS中文字到音訊特徵的轉換,只是什麼時候會有下一篇我就不知道了喔OwO。 FF 7.0我來嚕


7會員
19內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
發表第一個留言支持創作者!
貓貓學習筆記 的其他內容
AI 小撇步-Distilling Knowledge
閱讀時間約 14 分鐘
TextToSpeech-語音初探
閱讀時間約 2 分鐘
TextToSpeech-Word Embedding
閱讀時間約 17 分鐘
TextToSpeech-語音重建
閱讀時間約 4 分鐘
TextToSpeech-WaveNet
閱讀時間約 9 分鐘
你可能也想看
大選後日談(下) 從「我菁英,我傲慢」到「我傲慢,我菁英」「以菁英自居的傲慢」風氣,正大面積的席捲全台各個領域,因為太方便,我不必去理解別人,因為我是菁英而你愚昧;我不用向你妥協,因為我是菁英而你愚昧;我不用去檢視自己,因為我是菁英而你愚昧。
Thumbnail
avatar
章至鈞
2024-01-24
大選後日談(上) 「網紅」的賦權當公眾人物有很爽的地方,被追捧、接業配、靠個人品牌獲取利益,這都沒關係,你應得的。但是當一個公眾人物需要有怎樣的自覺,以及該付出怎樣的代價,或許在新媒體橫流的時代下,是堂該被列入國民教育的課。可能比顧炎武的「廉恥」還更要緊一點。
Thumbnail
avatar
章至鈞
2024-01-18
【旭國戰記】後日談.往事知多少旭國中有兩處閒置的宅院,是鉞雁翎每年無論多忙都會抽空都會前往的地方。 一個是緊鄰旭國與從前的炵國交界處,旁邊有座大湖泊的宅院,夏日時節他總會攜家帶眷去小住幾天,當作避暑地來用。 另一處,則是位於皇城中央地帶的舊皇爺府。 唯有那裡,是他獨自一人前往的地方。 鉞雁翎停留的時間不久,大部分只有待半
avatar
嘯風
2023-08-17
[LabVIEW] SbRIO RT 使用Wavelet VI 無法Deploy在RT端使用Wavelet function遇到無法Deploy
Thumbnail
avatar
Jed
2023-04-15
『35歲的告白』後日談從2021年春天提案、2022年2月開始積稿準備、連載了5個月的作品『35歲的告白』,終於在前幾天,平安告一個段落、畫下休止符。以下想要來談一下這個故事背後的點點滴滴,可能涉及劇情,記得先去看過故事哦!
Thumbnail
avatar
TEI
2023-01-16
《鬼屋》後日談 - 賽門.迪亞茲>>詳細團錄由此看   鬧鬼宅邸的事件結束後,賽門‧迪亞茲開著他的黑色老福特從波士頓回到華盛頓,第一件事不是回家,而是回到調查局總部所在的勞勃·F·甘迺迪司法部大樓。他坐到自己的座位上,清了清休假期間桌面上積累的灰塵。打開此行寫下的筆記重新回想那段經歷;超自然現象是真實存在的,他親身體驗過。   那
Thumbnail
avatar
餘燼
2022-10-15
後日談 局又將始七年後,杭州。 「真的?可是,我求籤,跟我的手有什麼關係啊?」謝道蘊一聽求到的籤是上上籤,很是想知道該如何解籤,卻又覺得自己的青蔥玉指被一個陌生相師摸來摸去的,很是不自在。 「尤其是那種在湖邊或是在廟邊擺攤的相師,對不對?」一個如黃鶯出谷般美麗婉轉的聲音自青年相師身後傳來。 「嗯!」小趙大業點頭。
avatar
亞寧
2022-05-15
後日談《Written by 阿熊 feat. GR》。 親家主筆糧食,成人向描寫有——
Thumbnail
avatar
刀痴GR
2022-05-02
後日談(成人向)feat.GR已經不記得自己是怎麼度過那天的了。
Thumbnail
avatar
冰ノ采
2022-04-26
後日談狼重拾了銳利的目光與獠牙,踏上滿佈猩紅的道路,她將越過雪原,在彼方的大陸伺機奪回刻印在血裡的榮光;柔軟的蘆葦不再折腰,隨風搖曳著拓出前行的路,陣陣起伏的,不是深沉可怖的汪洋,而是金色的葦原。 卻只有殷紫的背影永遠失去了蹤跡,停留在了夢魘的那時──
Thumbnail
avatar
刀痴GR
2022-01-23