2024-05-29|閱讀時間 ‧ 約 25 分鐘

TextToSpeech-語音重建

一. 引言

  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理預測音訊特徵語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。

二. 為什麼要進行語音重建

  在進入正題前,也許有人會這麼想,深度學習這麼強大,為什麼不直接預測語音波形,還要先預測音訊特徵,再重建回語音波形呢?

主要有幾點原因 :

  • 維度和複雜度問題 : 直接預測語音波形需要處理非常高的數據維度和複雜度,語音波形是連續的且高頻變化的信號,這需要模型處理大量的樣本點(每秒鐘數千到數萬個樣本點),直接預測波形的計算資源需求非常高,且難以達到高精度。
  • 稀疏表示的問題 : 語音波形中包含大量的細節和噪聲,這使得直接預測波形變得非常困難。而使用音訊特徵的話,去除了許多高頻噪聲和細節,保留了語音的主要特徵,讓模型更容易學習和預測。
  • 現有技術的成熟 : 現有的Vocoder技術已經證明了其在重建音訊方面的高質量和穩定性。這些技術能夠有效地將音訊特徵轉換為自然的語音波形,並且已經在多個應用中得到驗證。
  • 簡化學習目標 : 模型只需關注文本到音訊特徵的映射,而不需要處理高維度的波形數據。這降低了模型的複雜度,提高了訓練效率和效果。
  • 可解釋性和可控性 : 音訊特徵提供了一種可解釋的中介表示,使得研究者可以更容易地分析和調試模型,此外,通過調整這個特徵,可以實現對最終語音的一些控制(如先前圖像風格轉換的概念),例如音高、速度和音色的調整。

簡單來說,就是直接由文字轉成語音太過於複雜,且同時也有人進行音訊特徵轉換成波形的研究,那就別頭鐵,直接研究文字轉音訊特徵,然後再將兩者結合起來。

三. 要使用哪種音訊特徵

  能夠用於重建音訊的特徵有很多種(這裡只舉例了幾種),每種特徵都有著他的特性 :

  • 線性特徵 : 通過短時傅里葉變換(STFT)直接從音訊信號中提取的頻率分布。

優點

提供了完整的頻率信息,包含高頻和低頻細節。

適用於一些需要高頻解析度的應用。

缺點

頻譜維度高,數據量大,處理複雜。

沒有模擬人耳的感知特點,可能導致重建的音訊不自然。

  • Chroma特徵 : 主要反映音訊的和弦和音調信息,每個維度代表一個特定的音高類別

優點

適合於音樂處理,能有效捕捉音調和和弦信息。

缺點

對語音信號的頻率解析度較低,不適合精細的音訊重建。

主要用於音樂信息檢索和音樂分析。

低維表示,適合於旋律和音調分析。

  • Mel頻譜 : 通過將音訊信號分幀後進行短時傅里葉變換(STFT),並將頻譜圖應用Mel尺度濾波器組處理後得到的頻譜表示,模擬人耳對不同頻率的感知能力。

優點

模擬人耳的感知特性,能夠更自然地重建語音。

頻譜平滑,減少噪聲和不必要的細節。

資料量壓縮,有效降低維度,計算效率高。

缺點

可能會丟失一些高頻細節。

須進行濾波器設計和轉換計算,過程相對複雜。

雖然有多種音訊特徵可以用於音訊重建,但Mel頻譜因其擬合人耳感知的特性、平滑和壓縮、計算效率高以及廣泛的工具支持,成為了音訊重建中的首選。

研究者選擇Mel頻譜,是為了在保證語音自然度和清晰度的前提下,提高模型的訓練效率和生成效果。這些優勢使得Mel頻譜在語音合成和重建領域占據了重要地位。

四. 語音重建方法

  音訊重建技術(Vocoder)是指將語音的頻譜特徵轉換成波形的過程,這個過程包括對語音的頻譜參數進行解碼,並生成聽起來自然的語音信號,發展至今,也有許多方法能夠達成 :

傳統音訊重建技術

  • Griffin-Lim算法:這是一種經典的相位重建算法,用於從頻譜恢復波形。該算法反覆調整相位,最終產生與目標頻譜匹配的波形。
  • 聲碼器(Vocoder):傳統的聲碼器技術,如LPC(線性預測編碼)和STRAIGHT,利用語音的數學模型進行重建,生成語音波形。

現代音訊重建技術

  • WaveNet:由Google提出的一種生成模型,使用深度神經網絡來直接生成波形。WaveNet通過訓練大量的語音數據,學習到生成高質量語音的能力。
  • WaveGlow:這是一種基於Glow模型的語音生成技術,結合了流式模型和生成對抗網絡(GAN),能夠快速且高質量地生成語音波形。
  • MelGAN:這是一種基於生成對抗網絡(GAN)的技術,能夠從Mel頻譜生成高質量的語音波形,並且具有生成速度快的優勢。

五. 結語

  音訊重建是 TTS 中很重要的一環,若是重建的不好,最終結果聽起來也會不夠自然,今天說明了為何音訊重建而不是直接預測波形的理由,以及音訊特徵的選擇,下篇會針對 WaveNet 進行說明,看看目前使用神經網路是如何進行 Mel 頻譜到音訊波形的轉換的,至於要如何從文字預測 Mel 頻譜再稍微等等吶。

  

分享至
成為作者繼續創作的動力吧!
這裡會放置一些我有興趣的一些AI領域的學習統整,包含影像,文字,音訊等領域
© 2024 vocus All rights reserved.