TextToSpeech-語音重建

更新於 發佈於 閱讀時間約 4 分鐘

一. 引言

  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理預測音訊特徵語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。

二. 為什麼要進行語音重建

  在進入正題前,也許有人會這麼想,深度學習這麼強大,為什麼不直接預測語音波形,還要先預測音訊特徵,再重建回語音波形呢?

主要有幾點原因 :

  • 維度和複雜度問題 : 直接預測語音波形需要處理非常高的數據維度和複雜度,語音波形是連續的且高頻變化的信號,這需要模型處理大量的樣本點(每秒鐘數千到數萬個樣本點),直接預測波形的計算資源需求非常高,且難以達到高精度。
  • 稀疏表示的問題 : 語音波形中包含大量的細節和噪聲,這使得直接預測波形變得非常困難。而使用音訊特徵的話,去除了許多高頻噪聲和細節,保留了語音的主要特徵,讓模型更容易學習和預測。
  • 現有技術的成熟 : 現有的Vocoder技術已經證明了其在重建音訊方面的高質量和穩定性。這些技術能夠有效地將音訊特徵轉換為自然的語音波形,並且已經在多個應用中得到驗證。
  • 簡化學習目標 : 模型只需關注文本到音訊特徵的映射,而不需要處理高維度的波形數據。這降低了模型的複雜度,提高了訓練效率和效果。
  • 可解釋性和可控性 : 音訊特徵提供了一種可解釋的中介表示,使得研究者可以更容易地分析和調試模型,此外,通過調整這個特徵,可以實現對最終語音的一些控制(如先前圖像風格轉換的概念),例如音高、速度和音色的調整。

簡單來說,就是直接由文字轉成語音太過於複雜,且同時也有人進行音訊特徵轉換成波形的研究,那就別頭鐵,直接研究文字轉音訊特徵,然後再將兩者結合起來。

三. 要使用哪種音訊特徵

  能夠用於重建音訊的特徵有很多種(這裡只舉例了幾種),每種特徵都有著他的特性 :

  • 線性特徵 : 通過短時傅里葉變換(STFT)直接從音訊信號中提取的頻率分布。

優點

提供了完整的頻率信息,包含高頻和低頻細節。

適用於一些需要高頻解析度的應用。

缺點

頻譜維度高,數據量大,處理複雜。

沒有模擬人耳的感知特點,可能導致重建的音訊不自然。

  • Chroma特徵 : 主要反映音訊的和弦和音調信息,每個維度代表一個特定的音高類別

優點

適合於音樂處理,能有效捕捉音調和和弦信息。

缺點

對語音信號的頻率解析度較低,不適合精細的音訊重建。

主要用於音樂信息檢索和音樂分析。

低維表示,適合於旋律和音調分析。

  • Mel頻譜 : 通過將音訊信號分幀後進行短時傅里葉變換(STFT),並將頻譜圖應用Mel尺度濾波器組處理後得到的頻譜表示,模擬人耳對不同頻率的感知能力。

優點

模擬人耳的感知特性,能夠更自然地重建語音。

頻譜平滑,減少噪聲和不必要的細節。

資料量壓縮,有效降低維度,計算效率高。

缺點

可能會丟失一些高頻細節。

須進行濾波器設計和轉換計算,過程相對複雜。

雖然有多種音訊特徵可以用於音訊重建,但Mel頻譜因其擬合人耳感知的特性、平滑和壓縮、計算效率高以及廣泛的工具支持,成為了音訊重建中的首選。

研究者選擇Mel頻譜,是為了在保證語音自然度和清晰度的前提下,提高模型的訓練效率和生成效果。這些優勢使得Mel頻譜在語音合成和重建領域占據了重要地位。

四. 語音重建方法

  音訊重建技術(Vocoder)是指將語音的頻譜特徵轉換成波形的過程,這個過程包括對語音的頻譜參數進行解碼,並生成聽起來自然的語音信號,發展至今,也有許多方法能夠達成 :

傳統音訊重建技術

  • Griffin-Lim算法:這是一種經典的相位重建算法,用於從頻譜恢復波形。該算法反覆調整相位,最終產生與目標頻譜匹配的波形。
  • 聲碼器(Vocoder):傳統的聲碼器技術,如LPC(線性預測編碼)和STRAIGHT,利用語音的數學模型進行重建,生成語音波形。

現代音訊重建技術

  • WaveNet:由Google提出的一種生成模型,使用深度神經網絡來直接生成波形。WaveNet通過訓練大量的語音數據,學習到生成高質量語音的能力。
  • WaveGlow:這是一種基於Glow模型的語音生成技術,結合了流式模型和生成對抗網絡(GAN),能夠快速且高質量地生成語音波形。
  • MelGAN:這是一種基於生成對抗網絡(GAN)的技術,能夠從Mel頻譜生成高質量的語音波形,並且具有生成速度快的優勢。

五. 結語

  音訊重建是 TTS 中很重要的一環,若是重建的不好,最終結果聽起來也會不夠自然,今天說明了為何音訊重建而不是直接預測波形的理由,以及音訊特徵的選擇,下篇會針對 WaveNet 進行說明,看看目前使用神經網路是如何進行 Mel 頻譜到音訊波形的轉換的,至於要如何從文字預測 Mel 頻譜再稍微等等吶。

  

留言
avatar-img
留言分享你的想法!
avatar-img
貓貓學習筆記
10會員
21內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
貓貓學習筆記的其他內容
2024/07/08
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
2024/07/08
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
2024/06/26
距離上篇已經快過一個月了,這個月我也沒閒著,我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試,也比較與其他人實現的效果,又發現了幾個實作上可能造成困難的點,現在就跟各位分享一下~
Thumbnail
2024/06/26
距離上篇已經快過一個月了,這個月我也沒閒著,我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試,也比較與其他人實現的效果,又發現了幾個實作上可能造成困難的點,現在就跟各位分享一下~
Thumbnail
2024/06/01
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
Thumbnail
2024/06/01
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
Thumbnail
看更多
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
(續上篇) 本文開頭提供情境讓讀者「換位思考」,接續論述 5. 非「相對主流標準」的「發音」或「口音」對英語學習的「影響」; 6. 考慮語用「目的」、「效果」,自我提升; 7. 「發音」或「口音」在主、客觀學習上的考量
Thumbnail
(續上篇) 本文開頭提供情境讓讀者「換位思考」,接續論述 5. 非「相對主流標準」的「發音」或「口音」對英語學習的「影響」; 6. 考慮語用「目的」、「效果」,自我提升; 7. 「發音」或「口音」在主、客觀學習上的考量
Thumbnail
輔音中響度相對較大的鼻音、邊音具有與元音相似的特性,可以自成音節。我們生活周遭的英語、臺語、客語等都有類似的例子。而除了鼻音、邊音之外,其他響度較小的輔音似乎就沒辦法自成音節......了嗎?
Thumbnail
輔音中響度相對較大的鼻音、邊音具有與元音相似的特性,可以自成音節。我們生活周遭的英語、臺語、客語等都有類似的例子。而除了鼻音、邊音之外,其他響度較小的輔音似乎就沒辦法自成音節......了嗎?
Thumbnail
這篇文章介紹了使用手語輸出練習來提高英文口說能力的方法。透過觀賞影片並用英文表達影片內容的訓練方式,可以有效提升單字輸出、口說能力和短期記憶。文章詳細介紹了少人和多人團體練習的進行方式以及相關的補充提示。此外還提到可以配合背誦單字的練習,以增強學生的學習效果。
Thumbnail
這篇文章介紹了使用手語輸出練習來提高英文口說能力的方法。透過觀賞影片並用英文表達影片內容的訓練方式,可以有效提升單字輸出、口說能力和短期記憶。文章詳細介紹了少人和多人團體練習的進行方式以及相關的補充提示。此外還提到可以配合背誦單字的練習,以增強學生的學習效果。
Thumbnail
這篇教學介紹如何進行中文語音訓練,包括準備素材、GPT-SoVITS安裝步驟、音頻切割、字幕打標和推理等。文章提供了清晰的教學步驟,適合初學者閱讀。
Thumbnail
這篇教學介紹如何進行中文語音訓練,包括準備素材、GPT-SoVITS安裝步驟、音頻切割、字幕打標和推理等。文章提供了清晰的教學步驟,適合初學者閱讀。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
拼字,靠死背:多少人能背光那些例外? 文法,靠理解:多少人能解密那些規則? 語意,靠閱讀:多少人能「看」出那些「音效」?
Thumbnail
拼字,靠死背:多少人能背光那些例外? 文法,靠理解:多少人能解密那些規則? 語意,靠閱讀:多少人能「看」出那些「音效」?
Thumbnail
當我們在進行「語音辨識」的應用開發時, 首先會面臨一個問題, 那就是究竟要怎麼知道哪些段落是「人在說話的區段」, 精確的標示出這些區段之後, 我們除了可以儲存成純對話的段落, 還可以做出時間軸的字幕檔, 應用非常廣泛, 因此學會怎麼用VAD是進入語音領域非常重要的其中一個環節。 VAD代表
Thumbnail
當我們在進行「語音辨識」的應用開發時, 首先會面臨一個問題, 那就是究竟要怎麼知道哪些段落是「人在說話的區段」, 精確的標示出這些區段之後, 我們除了可以儲存成純對話的段落, 還可以做出時間軸的字幕檔, 應用非常廣泛, 因此學會怎麼用VAD是進入語音領域非常重要的其中一個環節。 VAD代表
Thumbnail
我們在前面有提到輔音的發音位置、發音方法,看起來好像介紹完全部的輔音了。不過你有發現這些文章介紹的輔音有什麼共通特色嗎?原來是這些輔音都是氣流「從肺部向外」流出形成的發音。那麼,有沒有氣流從外而內的發音呢?
Thumbnail
我們在前面有提到輔音的發音位置、發音方法,看起來好像介紹完全部的輔音了。不過你有發現這些文章介紹的輔音有什麼共通特色嗎?原來是這些輔音都是氣流「從肺部向外」流出形成的發音。那麼,有沒有氣流從外而內的發音呢?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News