TextToSpeech-WaveNet 後日談

更新於 2024/06/26閱讀時間約 4 分鐘

一.引言

  距離上篇已經快過一個月了,這個月我也沒閒著,我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試,也比較與其他人實現的效果,又發現了幾個實作上可能造成困難的點,現在就跟各位分享一下~

二.問題點

  • 訓練及預測真的太久了 :

  目前我使用的是 NVIDIA 2080ti 進行訓練,光是訓練一段 4 秒的音頻,就要花費好幾個小時,而預測也需要 20 分鐘以上。更糟糕的是,預測時經常會聽到一堆雜音,需要反覆調整訓練,來回幾次就耗掉一整天。因此,實際應用上,使用雲端多 GPU 進行訓練可能會是一個更具性價比的方法。

  • GPU記憶體的占用 :

  根據不同的設計,網路一次能處理多少音訊受限於顯卡記憶體大小,2080ti 有 11 GB,運行時若是餵入長度為24000的音訊(若以16000採樣頻率來看的話就是1.5秒的長度),就會占用 8 GB左右了,若是記憶體不足,單次能訓練的音訊長度就會變短,會讓整體收斂速度下降,甚至無法收斂。

  • 訓練及預測時的方法不一致 :

  上篇有提到我們訓練時是使用正解作為輸入,但預測時是用一個啟動張量推動,讓他能一個一個產生新的音訊結果,但是這就會造成一個問題 -- 若是我一開始就預測的很爛,那麼後面產生的也不會是好東西,要解決這個問題也很簡單,給予足夠多樣的訓練資料讓模型的泛化性提高,但......愈多的資料就代表收斂的時間愈長,也代表花的時間愈多,所以你知道的,兩個禮拜就這麼過去了不是在練等呦

  • 中文與英文的複雜度不一致 :

  進行實驗的過程中,在同樣條件下,英文音訊的收斂成效比中文的好,我認為這是語言組成不同導致的,有更複雜音節的語言得付出更長時間的訓練時間。

  • 噪聲的優化

  在實驗途中,時常發現儘管已經收斂,但是試聽時還是有大量噪聲混雜,這部分需要進一步優化,可能涉及到改進模型結構或使用更高品質的數據進行訓練。

三.後續改進方案

  • 使用雲端多 GPU 訓練

  使用雲端多 GPU 進行訓練可以大大縮短訓練時間,提高訓練效率。此外,雲端服務提供的計算資源更加靈活,可以根據需求隨時擴展(如之前介紹的AWS),適合進行大規模的音訊數據訓練。

  • 混合精度訓練

  混合精度訓練技術(Mixed Precision Training)可以有效地減少訓練過程中的記憶體佔用,並加快訓練速度。這種方法使用浮點16(FP16)和浮點32(FP32)混合進行計算,從而在不影響模型性能的前提下提高計算效率。

  • 模型壓縮技術

  可以考慮使用模型壓縮技術,如知識蒸餾(Knowledge Distillation)、模型剪枝(Pruning)和量化(Quantization),來減少模型的大小和計算量,從而提高預測速度和減少記憶體佔用。

  • 使用更高效的架構

  除了 WaveNet,可以考慮使用更高效的語音合成架構,如 Tacotron 2 或 Transformer TTS,這些模型在生成質量和效率上都有不錯的表現。特別是 Transformer 架構,由於其強大的自注意力機制,能更好地捕捉語音的長距依賴特性。

  • 使用正則化技術

  正則化技術如 Dropout、Layer Normalization 和 Batch Normalization 可以幫助模型更好地泛化,減少過擬合,從而在面對不同語音數據時能有更穩定的表現。

  • 數據預處理與增強

  除了增加數據多樣性,還可以對訓練數據進行預處理和增強,如噪聲過濾、音高變換、時間拉伸等,這樣可以使模型更好地適應不同的語音特徵,從而提高合成效果。

  • 後處理

  在模型生成音訊後,可以使用噪聲過濾技術來減少噪聲。例如,使用頻譜減法或自適應噪聲抑制技術來提高音訊的清晰度。此外,可以考慮對生成的音訊進行後處理,如使用聲學模型進行重建或使用音訊增強技術來進一步提高音訊質量。

四.結語

  這次花了好長的時間來好好研究音訊重建,這裡頭的坑比我想像中還要多,雖然我列出了大量的修改方向,但我應該不會花太多時間去測試及比較,因為目前學習的目的是接觸更多之前沒接觸過的領域,我不希望在同一個主題花費太多時間,未來若真的需要專研時再好好研究,加上音訊領域目前發展挺成熟,在已經有車子的情況下,我就不造這輪子了,接下來會回到主題,去探討TTS中文字到音訊特徵的轉換,只是什麼時候會有下一篇我就不知道了喔OwO。 FF 7.0我來嚕


avatar-img
8會員
21內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
貓貓學習筆記 的其他內容
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
「以菁英自居的傲慢」風氣,正大面積的席捲全台各個領域,因為太方便,我不必去理解別人,因為我是菁英而你愚昧;我不用向你妥協,因為我是菁英而你愚昧;我不用去檢視自己,因為我是菁英而你愚昧。
Thumbnail
當公眾人物有很爽的地方,被追捧、接業配、靠個人品牌獲取利益,這都沒關係,你應得的。但是當一個公眾人物需要有怎樣的自覺,以及該付出怎樣的代價,或許在新媒體橫流的時代下,是堂該被列入國民教育的課。可能比顧炎武的「廉恥」還更要緊一點。
旭國中有兩處閒置的宅院,是鉞雁翎每年無論多忙都會抽空都會前往的地方。 一個是緊鄰旭國與從前的炵國交界處,旁邊有座大湖泊的宅院,夏日時節他總會攜家帶眷去小住幾天,當作避暑地來用。 另一處,則是位於皇城中央地帶的舊皇爺府。 唯有那裡,是他獨自一人前往的地方。 鉞雁翎停留的時間不久,大部分只有待半
Thumbnail
在RT端使用Wavelet function遇到無法Deploy
Thumbnail
從2021年春天提案、2022年2月開始積稿準備、連載了5個月的作品『35歲的告白』,終於在前幾天,平安告一個段落、畫下休止符。以下想要來談一下這個故事背後的點點滴滴,可能涉及劇情,記得先去看過故事哦!
Thumbnail
>>詳細團錄由此看   鬧鬼宅邸的事件結束後,賽門‧迪亞茲開著他的黑色老福特從波士頓回到華盛頓,第一件事不是回家,而是回到調查局總部所在的勞勃·F·甘迺迪司法部大樓。他坐到自己的座位上,清了清休假期間桌面上積累的灰塵。打開此行寫下的筆記重新回想那段經歷;超自然現象是真實存在的,他親身體驗過。   那
七年後,杭州。 「真的?可是,我求籤,跟我的手有什麼關係啊?」謝道蘊一聽求到的籤是上上籤,很是想知道該如何解籤,卻又覺得自己的青蔥玉指被一個陌生相師摸來摸去的,很是不自在。 「尤其是那種在湖邊或是在廟邊擺攤的相師,對不對?」一個如黃鶯出谷般美麗婉轉的聲音自青年相師身後傳來。 「嗯!」小趙大業點頭。
Thumbnail
可能包含敏感內容
《Written by 阿熊 feat. GR》。 親家主筆糧食,成人向描寫有——
Thumbnail
可能包含敏感內容
已經不記得自己是怎麼度過那天的了。
Thumbnail
狼重拾了銳利的目光與獠牙,踏上滿佈猩紅的道路,她將越過雪原,在彼方的大陸伺機奪回刻印在血裡的榮光;柔軟的蘆葦不再折腰,隨風搖曳著拓出前行的路,陣陣起伏的,不是深沉可怖的汪洋,而是金色的葦原。 卻只有殷紫的背影永遠失去了蹤跡,停留在了夢魘的那時──
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
「以菁英自居的傲慢」風氣,正大面積的席捲全台各個領域,因為太方便,我不必去理解別人,因為我是菁英而你愚昧;我不用向你妥協,因為我是菁英而你愚昧;我不用去檢視自己,因為我是菁英而你愚昧。
Thumbnail
當公眾人物有很爽的地方,被追捧、接業配、靠個人品牌獲取利益,這都沒關係,你應得的。但是當一個公眾人物需要有怎樣的自覺,以及該付出怎樣的代價,或許在新媒體橫流的時代下,是堂該被列入國民教育的課。可能比顧炎武的「廉恥」還更要緊一點。
旭國中有兩處閒置的宅院,是鉞雁翎每年無論多忙都會抽空都會前往的地方。 一個是緊鄰旭國與從前的炵國交界處,旁邊有座大湖泊的宅院,夏日時節他總會攜家帶眷去小住幾天,當作避暑地來用。 另一處,則是位於皇城中央地帶的舊皇爺府。 唯有那裡,是他獨自一人前往的地方。 鉞雁翎停留的時間不久,大部分只有待半
Thumbnail
在RT端使用Wavelet function遇到無法Deploy
Thumbnail
從2021年春天提案、2022年2月開始積稿準備、連載了5個月的作品『35歲的告白』,終於在前幾天,平安告一個段落、畫下休止符。以下想要來談一下這個故事背後的點點滴滴,可能涉及劇情,記得先去看過故事哦!
Thumbnail
>>詳細團錄由此看   鬧鬼宅邸的事件結束後,賽門‧迪亞茲開著他的黑色老福特從波士頓回到華盛頓,第一件事不是回家,而是回到調查局總部所在的勞勃·F·甘迺迪司法部大樓。他坐到自己的座位上,清了清休假期間桌面上積累的灰塵。打開此行寫下的筆記重新回想那段經歷;超自然現象是真實存在的,他親身體驗過。   那
七年後,杭州。 「真的?可是,我求籤,跟我的手有什麼關係啊?」謝道蘊一聽求到的籤是上上籤,很是想知道該如何解籤,卻又覺得自己的青蔥玉指被一個陌生相師摸來摸去的,很是不自在。 「尤其是那種在湖邊或是在廟邊擺攤的相師,對不對?」一個如黃鶯出谷般美麗婉轉的聲音自青年相師身後傳來。 「嗯!」小趙大業點頭。
Thumbnail
可能包含敏感內容
《Written by 阿熊 feat. GR》。 親家主筆糧食,成人向描寫有——
Thumbnail
可能包含敏感內容
已經不記得自己是怎麼度過那天的了。
Thumbnail
狼重拾了銳利的目光與獠牙,踏上滿佈猩紅的道路,她將越過雪原,在彼方的大陸伺機奪回刻印在血裡的榮光;柔軟的蘆葦不再折腰,隨風搖曳著拓出前行的路,陣陣起伏的,不是深沉可怖的汪洋,而是金色的葦原。 卻只有殷紫的背影永遠失去了蹤跡,停留在了夢魘的那時──