TextToSpeech-語音重建

賴靖融

2024/05/29閱讀時間約 4 分鐘

一. 引言

　　我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建，其中輸入前處理的部分上兩篇已經處理完，在進入預測音訊特徵前，讓我們先來理解最後的語音重建部分。

二. 為什麼要進行語音重建

　　在進入正題前，也許有人會這麼想，深度學習這麼強大，為什麼不直接預測語音波形，還要先預測音訊特徵，再重建回語音波形呢?

主要有幾點原因 :

維度和複雜度問題 : 直接預測語音波形需要處理非常高的數據維度和複雜度，語音波形是連續的且高頻變化的信號，這需要模型處理大量的樣本點（每秒鐘數千到數萬個樣本點），直接預測波形的計算資源需求非常高，且難以達到高精度。
稀疏表示的問題 : 語音波形中包含大量的細節和噪聲，這使得直接預測波形變得非常困難。而使用音訊特徵的話，去除了許多高頻噪聲和細節，保留了語音的主要特徵，讓模型更容易學習和預測。
現有技術的成熟 : 現有的Vocoder技術已經證明了其在重建音訊方面的高質量和穩定性。這些技術能夠有效地將音訊特徵轉換為自然的語音波形，並且已經在多個應用中得到驗證。
簡化學習目標 : 模型只需關注文本到音訊特徵的映射，而不需要處理高維度的波形數據。這降低了模型的複雜度，提高了訓練效率和效果。
可解釋性和可控性 : 音訊特徵提供了一種可解釋的中介表示，使得研究者可以更容易地分析和調試模型，此外，通過調整這個特徵，可以實現對最終語音的一些控制(如先前圖像風格轉換的概念)，例如音高、速度和音色的調整。

簡單來說，就是直接由文字轉成語音太過於複雜，且同時也有人進行音訊特徵轉換成波形的研究，那就別頭鐵，直接研究文字轉音訊特徵，然後再將兩者結合起來。

三. 要使用哪種音訊特徵

　　能夠用於重建音訊的特徵有很多種(這裡只舉例了幾種)，每種特徵都有著他的特性 :

線性特徵 : 通過短時傅里葉變換（STFT）直接從音訊信號中提取的頻率分布。

優點：

提供了完整的頻率信息，包含高頻和低頻細節。

適用於一些需要高頻解析度的應用。

缺點：

頻譜維度高，數據量大，處理複雜。

沒有模擬人耳的感知特點，可能導致重建的音訊不自然。

Chroma特徵 : 主要反映音訊的和弦和音調信息，每個維度代表一個特定的音高類別

優點：

適合於音樂處理，能有效捕捉音調和和弦信息。

缺點：

對語音信號的頻率解析度較低，不適合精細的音訊重建。

主要用於音樂信息檢索和音樂分析。

低維表示，適合於旋律和音調分析。

Mel頻譜 : 通過將音訊信號分幀後進行短時傅里葉變換（STFT），並將頻譜圖應用Mel尺度濾波器組處理後得到的頻譜表示，模擬人耳對不同頻率的感知能力。

優點：

模擬人耳的感知特性，能夠更自然地重建語音。

頻譜平滑，減少噪聲和不必要的細節。

資料量壓縮，有效降低維度，計算效率高。

缺點：

可能會丟失一些高頻細節。

須進行濾波器設計和轉換計算，過程相對複雜。

雖然有多種音訊特徵可以用於音訊重建，但Mel頻譜因其擬合人耳感知的特性、平滑和壓縮、計算效率高以及廣泛的工具支持，成為了音訊重建中的首選。

研究者選擇Mel頻譜，是為了在保證語音自然度和清晰度的前提下，提高模型的訓練效率和生成效果。這些優勢使得Mel頻譜在語音合成和重建領域占據了重要地位。

四. 語音重建方法

　　音訊重建技術（Vocoder）是指將語音的頻譜特徵轉換成波形的過程，這個過程包括對語音的頻譜參數進行解碼，並生成聽起來自然的語音信號，發展至今，也有許多方法能夠達成 :

傳統音訊重建技術

Griffin-Lim算法：這是一種經典的相位重建算法，用於從頻譜恢復波形。該算法反覆調整相位，最終產生與目標頻譜匹配的波形。
聲碼器（Vocoder）：傳統的聲碼器技術，如LPC（線性預測編碼）和STRAIGHT，利用語音的數學模型進行重建，生成語音波形。

現代音訊重建技術

WaveNet：由Google提出的一種生成模型，使用深度神經網絡來直接生成波形。WaveNet通過訓練大量的語音數據，學習到生成高質量語音的能力。
WaveGlow：這是一種基於Glow模型的語音生成技術，結合了流式模型和生成對抗網絡（GAN），能夠快速且高質量地生成語音波形。
MelGAN：這是一種基於生成對抗網絡（GAN）的技術，能夠從Mel頻譜生成高質量的語音波形，並且具有生成速度快的優勢。

五. 結語

　　音訊重建是 TTS 中很重要的一環，若是重建的不好，最終結果聽起來也會不夠自然，今天說明了為何音訊重建而不是直接預測波形的理由，以及音訊特徵的選擇，下篇會針對 WaveNet 進行說明，看看目前使用神經網路是如何進行 Mel 頻譜到音訊波形的轉換的，至於要如何從文字預測 Mel 頻譜再稍微等等吶。