TextToSpeech-語音重建

閱讀時間約 4 分鐘

一. 引言

  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理預測音訊特徵語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。

二. 為什麼要進行語音重建

  在進入正題前,也許有人會這麼想,深度學習這麼強大,為什麼不直接預測語音波形,還要先預測音訊特徵,再重建回語音波形呢?

主要有幾點原因 :

  • 維度和複雜度問題 : 直接預測語音波形需要處理非常高的數據維度和複雜度,語音波形是連續的且高頻變化的信號,這需要模型處理大量的樣本點(每秒鐘數千到數萬個樣本點),直接預測波形的計算資源需求非常高,且難以達到高精度。
  • 稀疏表示的問題 : 語音波形中包含大量的細節和噪聲,這使得直接預測波形變得非常困難。而使用音訊特徵的話,去除了許多高頻噪聲和細節,保留了語音的主要特徵,讓模型更容易學習和預測。
  • 現有技術的成熟 : 現有的Vocoder技術已經證明了其在重建音訊方面的高質量和穩定性。這些技術能夠有效地將音訊特徵轉換為自然的語音波形,並且已經在多個應用中得到驗證。
  • 簡化學習目標 : 模型只需關注文本到音訊特徵的映射,而不需要處理高維度的波形數據。這降低了模型的複雜度,提高了訓練效率和效果。
  • 可解釋性和可控性 : 音訊特徵提供了一種可解釋的中介表示,使得研究者可以更容易地分析和調試模型,此外,通過調整這個特徵,可以實現對最終語音的一些控制(如先前圖像風格轉換的概念),例如音高、速度和音色的調整。

簡單來說,就是直接由文字轉成語音太過於複雜,且同時也有人進行音訊特徵轉換成波形的研究,那就別頭鐵,直接研究文字轉音訊特徵,然後再將兩者結合起來。

三. 要使用哪種音訊特徵

  能夠用於重建音訊的特徵有很多種(這裡只舉例了幾種),每種特徵都有著他的特性 :

  • 線性特徵 : 通過短時傅里葉變換(STFT)直接從音訊信號中提取的頻率分布。

優點

提供了完整的頻率信息,包含高頻和低頻細節。

適用於一些需要高頻解析度的應用。

缺點

頻譜維度高,數據量大,處理複雜。

沒有模擬人耳的感知特點,可能導致重建的音訊不自然。

  • Chroma特徵 : 主要反映音訊的和弦和音調信息,每個維度代表一個特定的音高類別

優點

適合於音樂處理,能有效捕捉音調和和弦信息。

缺點

對語音信號的頻率解析度較低,不適合精細的音訊重建。

主要用於音樂信息檢索和音樂分析。

低維表示,適合於旋律和音調分析。

  • Mel頻譜 : 通過將音訊信號分幀後進行短時傅里葉變換(STFT),並將頻譜圖應用Mel尺度濾波器組處理後得到的頻譜表示,模擬人耳對不同頻率的感知能力。

優點

模擬人耳的感知特性,能夠更自然地重建語音。

頻譜平滑,減少噪聲和不必要的細節。

資料量壓縮,有效降低維度,計算效率高。

缺點

可能會丟失一些高頻細節。

須進行濾波器設計和轉換計算,過程相對複雜。

雖然有多種音訊特徵可以用於音訊重建,但Mel頻譜因其擬合人耳感知的特性、平滑和壓縮、計算效率高以及廣泛的工具支持,成為了音訊重建中的首選。

研究者選擇Mel頻譜,是為了在保證語音自然度和清晰度的前提下,提高模型的訓練效率和生成效果。這些優勢使得Mel頻譜在語音合成和重建領域占據了重要地位。

四. 語音重建方法

  音訊重建技術(Vocoder)是指將語音的頻譜特徵轉換成波形的過程,這個過程包括對語音的頻譜參數進行解碼,並生成聽起來自然的語音信號,發展至今,也有許多方法能夠達成 :

傳統音訊重建技術

  • Griffin-Lim算法:這是一種經典的相位重建算法,用於從頻譜恢復波形。該算法反覆調整相位,最終產生與目標頻譜匹配的波形。
  • 聲碼器(Vocoder):傳統的聲碼器技術,如LPC(線性預測編碼)和STRAIGHT,利用語音的數學模型進行重建,生成語音波形。

現代音訊重建技術

  • WaveNet:由Google提出的一種生成模型,使用深度神經網絡來直接生成波形。WaveNet通過訓練大量的語音數據,學習到生成高質量語音的能力。
  • WaveGlow:這是一種基於Glow模型的語音生成技術,結合了流式模型和生成對抗網絡(GAN),能夠快速且高質量地生成語音波形。
  • MelGAN:這是一種基於生成對抗網絡(GAN)的技術,能夠從Mel頻譜生成高質量的語音波形,並且具有生成速度快的優勢。

五. 結語

  音訊重建是 TTS 中很重要的一環,若是重建的不好,最終結果聽起來也會不夠自然,今天說明了為何音訊重建而不是直接預測波形的理由,以及音訊特徵的選擇,下篇會針對 WaveNet 進行說明,看看目前使用神經網路是如何進行 Mel 頻譜到音訊波形的轉換的,至於要如何從文字預測 Mel 頻譜再稍微等等吶。

  

8會員
21Content count
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
發表第一個留言支持創作者!
貓貓學習筆記 的其他內容
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
  經過三篇的進展,我們目前實作的網路已經能做到同時訓練多種風格,且後續可以直接進行轉換,不用重新訓練,但是這種方法畢竟還是受到了預訓練的風格制約,無法跳脫出來,那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?
上篇我們已經把風格融入在一個網路之中,實現了訓練一次就可以轉換不同的圖片成我們訓練的風格,但是這樣還不夠,因為這樣每個風格都得訓練一個網路來轉換,太浪費了,那麼,我們有沒有辦法在同一個網路中訓練多個風格呢?
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
不知道大家會不會有這種感覺,在使用現今的一些預訓練模型時,雖然好用,但是實際在場域部屬時總感覺殺雞焉用牛刀,實際使用下去後續又沒有時間讓你去優化它,只好將錯就錯反正能用的想法持續使用,現在有個不錯的方法讓你在一開始就可以用相對低廉的成本去優化這個模型,讓後續使用不再懊悔。
  經過三篇的進展,我們目前實作的網路已經能做到同時訓練多種風格,且後續可以直接進行轉換,不用重新訓練,但是這種方法畢竟還是受到了預訓練的風格制約,無法跳脫出來,那麼有什麼辦法能夠讓他對於沒學過的風格也有一定的反應能力呢?
上篇我們已經把風格融入在一個網路之中,實現了訓練一次就可以轉換不同的圖片成我們訓練的風格,但是這樣還不夠,因為這樣每個風格都得訓練一個網路來轉換,太浪費了,那麼,我們有沒有辦法在同一個網路中訓練多個風格呢?
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
隨著語音搜尋技術的進步和普及,它對搜索引擎優化(SEO)的前景產生了深遠的影響。本文將探討語音搜尋對SEO的影響及未來發展,並介紹相關的SEO服務和趨勢。 語音搜尋的普及使得人們可以通過語音命令來進行搜索,而不再需要輸入文字。這使得搜索過程更加便捷和自然,也提高了搜索的準確性和效率。然而,對於SE
在這個語音辨識技術快速發展的時代, 如何有效利用這項技術來提升我們的創作和學習效率成為了一個值得探討的話題。 以下是我對於利用語音辨識技術進行有效筆記和創作的一些思考和策略。 ▋策略1 - 高效利用語音辨識轉換內容 利用語音辨識技術可以迅速捕捉我們的想法和語言, 進而將其轉換為文字。 這
Thumbnail
無論你是不是有寫作習慣,你一定都會與人溝通。 在工作與同事上級溝通,在生活與家人朋友溝通,在獨處時與自己溝通。 溝通順不順暢,有沒有內容,其實就在於平時對「素材」的累積。 透過運用語音筆記,你可以很自然捕捉自己的想法成為素材, 將日常的洞察與想法,轉換為實際價值。
Thumbnail
前幾天下班後去聽一場演唱會,演唱者是我很喜歡的音樂劇演員。
Thumbnail
在音樂與科學的第三、第四堂課,余道昌博士分別從視覺與聯想、由上而下的神經迴路學習方式兩個主題出發,帶領同學去探索自己的視覺與記憶的連結,以及回溯甚至是學習重建自己的學習方式。首先,從你是怎麼記憶的開始?
Thumbnail
正念的益處 這種快樂源於高貴的情操,能帶來真正的滿足。感官的快樂無法與它相比,而且只要你願意修練,這種快樂唾手可得,你不需要付一分錢就能得到它。 把握主要的掌控法 經行(或行禪) 本範例音檔使用網際智慧文字轉語音技術。
Thumbnail
我,21歲,來自台北,大學三年級,夜間部,在住處附近的科技公司擔任助理,接觸音樂的契機是來自於台灣的本土樂團—五月天。 這樣平凡的我居然,被拉進了重金屬音樂的世界?!
Thumbnail
講師:陳永宏臨床心理師 助理:張凱宴諮商心理師 這天,我進入弘光科技大學參加大專校院輔導人員的研習,而今天的主題是「正念頌缽音療」。 永宏心理師是一位喜歡音樂的人,從小也是在樂團及搖滾樂中成長,後來因為生命遭遇困難,而走上學習「心理專業」的道路。而此次研習的助理凱宴心理師,其實就是永宏心理師的妻子
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
隨著語音搜尋技術的進步和普及,它對搜索引擎優化(SEO)的前景產生了深遠的影響。本文將探討語音搜尋對SEO的影響及未來發展,並介紹相關的SEO服務和趨勢。 語音搜尋的普及使得人們可以通過語音命令來進行搜索,而不再需要輸入文字。這使得搜索過程更加便捷和自然,也提高了搜索的準確性和效率。然而,對於SE
在這個語音辨識技術快速發展的時代, 如何有效利用這項技術來提升我們的創作和學習效率成為了一個值得探討的話題。 以下是我對於利用語音辨識技術進行有效筆記和創作的一些思考和策略。 ▋策略1 - 高效利用語音辨識轉換內容 利用語音辨識技術可以迅速捕捉我們的想法和語言, 進而將其轉換為文字。 這
Thumbnail
無論你是不是有寫作習慣,你一定都會與人溝通。 在工作與同事上級溝通,在生活與家人朋友溝通,在獨處時與自己溝通。 溝通順不順暢,有沒有內容,其實就在於平時對「素材」的累積。 透過運用語音筆記,你可以很自然捕捉自己的想法成為素材, 將日常的洞察與想法,轉換為實際價值。
Thumbnail
前幾天下班後去聽一場演唱會,演唱者是我很喜歡的音樂劇演員。
Thumbnail
在音樂與科學的第三、第四堂課,余道昌博士分別從視覺與聯想、由上而下的神經迴路學習方式兩個主題出發,帶領同學去探索自己的視覺與記憶的連結,以及回溯甚至是學習重建自己的學習方式。首先,從你是怎麼記憶的開始?
Thumbnail
正念的益處 這種快樂源於高貴的情操,能帶來真正的滿足。感官的快樂無法與它相比,而且只要你願意修練,這種快樂唾手可得,你不需要付一分錢就能得到它。 把握主要的掌控法 經行(或行禪) 本範例音檔使用網際智慧文字轉語音技術。
Thumbnail
我,21歲,來自台北,大學三年級,夜間部,在住處附近的科技公司擔任助理,接觸音樂的契機是來自於台灣的本土樂團—五月天。 這樣平凡的我居然,被拉進了重金屬音樂的世界?!
Thumbnail
講師:陳永宏臨床心理師 助理:張凱宴諮商心理師 這天,我進入弘光科技大學參加大專校院輔導人員的研習,而今天的主題是「正念頌缽音療」。 永宏心理師是一位喜歡音樂的人,從小也是在樂團及搖滾樂中成長,後來因為生命遭遇困難,而走上學習「心理專業」的道路。而此次研習的助理凱宴心理師,其實就是永宏心理師的妻子