TextToSpeech-WaveNet 後日談

更新於 發佈於 閱讀時間約 4 分鐘

一.引言

  距離上篇已經快過一個月了,這個月我也沒閒著,我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試,也比較與其他人實現的效果,又發現了幾個實作上可能造成困難的點,現在就跟各位分享一下~

二.問題點

  • 訓練及預測真的太久了 :

  目前我使用的是 NVIDIA 2080ti 進行訓練,光是訓練一段 4 秒的音頻,就要花費好幾個小時,而預測也需要 20 分鐘以上。更糟糕的是,預測時經常會聽到一堆雜音,需要反覆調整訓練,來回幾次就耗掉一整天。因此,實際應用上,使用雲端多 GPU 進行訓練可能會是一個更具性價比的方法。

  • GPU記憶體的占用 :

  根據不同的設計,網路一次能處理多少音訊受限於顯卡記憶體大小,2080ti 有 11 GB,運行時若是餵入長度為24000的音訊(若以16000採樣頻率來看的話就是1.5秒的長度),就會占用 8 GB左右了,若是記憶體不足,單次能訓練的音訊長度就會變短,會讓整體收斂速度下降,甚至無法收斂。

  • 訓練及預測時的方法不一致 :

  上篇有提到我們訓練時是使用正解作為輸入,但預測時是用一個啟動張量推動,讓他能一個一個產生新的音訊結果,但是這就會造成一個問題 -- 若是我一開始就預測的很爛,那麼後面產生的也不會是好東西,要解決這個問題也很簡單,給予足夠多樣的訓練資料讓模型的泛化性提高,但......愈多的資料就代表收斂的時間愈長,也代表花的時間愈多,所以你知道的,兩個禮拜就這麼過去了不是在練等呦

  • 中文與英文的複雜度不一致 :

  進行實驗的過程中,在同樣條件下,英文音訊的收斂成效比中文的好,我認為這是語言組成不同導致的,有更複雜音節的語言得付出更長時間的訓練時間。

  • 噪聲的優化

  在實驗途中,時常發現儘管已經收斂,但是試聽時還是有大量噪聲混雜,這部分需要進一步優化,可能涉及到改進模型結構或使用更高品質的數據進行訓練。

三.後續改進方案

  • 使用雲端多 GPU 訓練

  使用雲端多 GPU 進行訓練可以大大縮短訓練時間,提高訓練效率。此外,雲端服務提供的計算資源更加靈活,可以根據需求隨時擴展(如之前介紹的AWS),適合進行大規模的音訊數據訓練。

  • 混合精度訓練

  混合精度訓練技術(Mixed Precision Training)可以有效地減少訓練過程中的記憶體佔用,並加快訓練速度。這種方法使用浮點16(FP16)和浮點32(FP32)混合進行計算,從而在不影響模型性能的前提下提高計算效率。

  • 模型壓縮技術

  可以考慮使用模型壓縮技術,如知識蒸餾(Knowledge Distillation)、模型剪枝(Pruning)和量化(Quantization),來減少模型的大小和計算量,從而提高預測速度和減少記憶體佔用。

  • 使用更高效的架構

  除了 WaveNet,可以考慮使用更高效的語音合成架構,如 Tacotron 2 或 Transformer TTS,這些模型在生成質量和效率上都有不錯的表現。特別是 Transformer 架構,由於其強大的自注意力機制,能更好地捕捉語音的長距依賴特性。

  • 使用正則化技術

  正則化技術如 Dropout、Layer Normalization 和 Batch Normalization 可以幫助模型更好地泛化,減少過擬合,從而在面對不同語音數據時能有更穩定的表現。

  • 數據預處理與增強

  除了增加數據多樣性,還可以對訓練數據進行預處理和增強,如噪聲過濾、音高變換、時間拉伸等,這樣可以使模型更好地適應不同的語音特徵,從而提高合成效果。

  • 後處理

  在模型生成音訊後,可以使用噪聲過濾技術來減少噪聲。例如,使用頻譜減法或自適應噪聲抑制技術來提高音訊的清晰度。此外,可以考慮對生成的音訊進行後處理,如使用聲學模型進行重建或使用音訊增強技術來進一步提高音訊質量。

四.結語

  這次花了好長的時間來好好研究音訊重建,這裡頭的坑比我想像中還要多,雖然我列出了大量的修改方向,但我應該不會花太多時間去測試及比較,因為目前學習的目的是接觸更多之前沒接觸過的領域,我不希望在同一個主題花費太多時間,未來若真的需要專研時再好好研究,加上音訊領域目前發展挺成熟,在已經有車子的情況下,我就不造這輪子了,接下來會回到主題,去探討TTS中文字到音訊特徵的轉換,只是什麼時候會有下一篇我就不知道了喔OwO。 FF 7.0我來嚕


avatar-img
8會員
21內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
貓貓學習筆記 的其他內容
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
好像很久沒有靜下心來寫一篇關於自己的事情,年初抱著很大的熱枕,在心中默默設定了增加文章撰寫數量的目標,卻反而經常收到魔法師稱號,被方格子給提醒。仔細想想自己近年一直囫圇吞棗,把自己給塞滿,Input了一堆卻來不及消化完,我想也是值得好好檢討的一件事情!
這段離開的日子比我想要的長很多,相比之前這次的迷惘感覺更偏向失去文字創作重心的感覺,不論是意義、價值或是很多層面的。當然至今我也沒有找到一個正確的解答,這段日子裡橫向學習很多技能,包含繪畫、音樂、創業,關於創作的核心,就像我先前認知到的仍然很泛用,我想之後有機會再來做簡單的分享。
Thumbnail
距離第一篇文章居然已經過了兩年,當初發表後不久即找到正職工作,忙著學習打理一間小店的事務,卻放空了寫作的初衷。 期間信箱還是會不時收到方格子的通知,但直到最近平台轉型的樣態呈現出來,才讓我產生回頭研究的好奇心。比起初期主攻專業內容帶動虛擬貨幣收入,如今的方格子比較像是分享想法的社群平台,每個人開闢
Thumbnail
第一次發文 |・ω・`)(試探 這個【創作進度】的區塊,預計會是類似週記的東西。
Thumbnail
大家好,好久沒更新,最近教學論命繁忙,這邊有所耽擱,真的抱歉。 最近也有跟設計師在討論要架官網,時間真的是不夠用了,因此方格子這邊我會先暫停一下,架好官網之後會將文章轉移到官網,至於會不會有收費文章,這邊我還再思考當中。 如果想看我最新的貼文,可以轉到我的社群上面去。目前是每周二晚上八點發放貼文
Thumbnail
4月發文成長? 也許有吧…發文一個月比一個月多一些,方格子,是個說心情,🗣發牢騷,及所有疑難雜症⁉️,跟偶而輕鬆自在🗣練肖話的“好所在”。 但,也是個集結“各界職場”,及優質人才分享職場心得,及大家書寫心情記事的平臺。 謝謝大家 與大家廣結善緣,好緣 持續
Thumbnail
一早起來收信,看到某篇文章又上了精選,what? 這不是我兩年半前發表的短文嗎? 我記得那時方格子甚至還無法給自己文章類型分類,也沒有點讚功能,都快忘記寫過這樣的內容了,那豈不表示,我在這裡滿資深的??(有點汗顏)。不知不覺又過了兩年多... https://vocus.cc/article/61
Thumbnail
自上次發文至今,快要一個月沒有發文章了,呵。 今天,我想來分享一下昨天晚上參加了某個社群平台舉辦的線上自媒體講座的一些感想。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
好像很久沒有靜下心來寫一篇關於自己的事情,年初抱著很大的熱枕,在心中默默設定了增加文章撰寫數量的目標,卻反而經常收到魔法師稱號,被方格子給提醒。仔細想想自己近年一直囫圇吞棗,把自己給塞滿,Input了一堆卻來不及消化完,我想也是值得好好檢討的一件事情!
這段離開的日子比我想要的長很多,相比之前這次的迷惘感覺更偏向失去文字創作重心的感覺,不論是意義、價值或是很多層面的。當然至今我也沒有找到一個正確的解答,這段日子裡橫向學習很多技能,包含繪畫、音樂、創業,關於創作的核心,就像我先前認知到的仍然很泛用,我想之後有機會再來做簡單的分享。
Thumbnail
距離第一篇文章居然已經過了兩年,當初發表後不久即找到正職工作,忙著學習打理一間小店的事務,卻放空了寫作的初衷。 期間信箱還是會不時收到方格子的通知,但直到最近平台轉型的樣態呈現出來,才讓我產生回頭研究的好奇心。比起初期主攻專業內容帶動虛擬貨幣收入,如今的方格子比較像是分享想法的社群平台,每個人開闢
Thumbnail
第一次發文 |・ω・`)(試探 這個【創作進度】的區塊,預計會是類似週記的東西。
Thumbnail
大家好,好久沒更新,最近教學論命繁忙,這邊有所耽擱,真的抱歉。 最近也有跟設計師在討論要架官網,時間真的是不夠用了,因此方格子這邊我會先暫停一下,架好官網之後會將文章轉移到官網,至於會不會有收費文章,這邊我還再思考當中。 如果想看我最新的貼文,可以轉到我的社群上面去。目前是每周二晚上八點發放貼文
Thumbnail
4月發文成長? 也許有吧…發文一個月比一個月多一些,方格子,是個說心情,🗣發牢騷,及所有疑難雜症⁉️,跟偶而輕鬆自在🗣練肖話的“好所在”。 但,也是個集結“各界職場”,及優質人才分享職場心得,及大家書寫心情記事的平臺。 謝謝大家 與大家廣結善緣,好緣 持續
Thumbnail
一早起來收信,看到某篇文章又上了精選,what? 這不是我兩年半前發表的短文嗎? 我記得那時方格子甚至還無法給自己文章類型分類,也沒有點讚功能,都快忘記寫過這樣的內容了,那豈不表示,我在這裡滿資深的??(有點汗顏)。不知不覺又過了兩年多... https://vocus.cc/article/61
Thumbnail
自上次發文至今,快要一個月沒有發文章了,呵。 今天,我想來分享一下昨天晚上參加了某個社群平台舉辦的線上自媒體講座的一些感想。