WaveNet 是由 DeepMind 研發的一種深度卷積神經網路架構,專門用於生成高品質的原始音訊波形,最初設計目標是用於文字轉語音(Text-to-Speech, TTS)系統,能產生非常自然且逼真的人聲。
主要特點與運作原理
- 自回歸生成模型(Autoregressive Model)
WaveNet 以自回歸方式運作,逐一預測音訊序列中的每個取樣點,當前取樣點的生成會依賴於之前所有的取樣點。 - 膨脹因果卷積(Dilated Causal Convolution)
使用膨脹卷積來擴大感受野(receptive field),使模型能有效捕捉長時間範圍的音訊依賴關係,同時保持計算效率。 - 因果性(Causality)
模型只利用過去的音訊取樣來預測下一個取樣,確保生成的音訊符合時間序列的因果關係。 - 門控激活單元(Gated Activation Unit)
每層由兩個平行卷積組成,一個使用 sigmoid 激活函數,另一個使用 tanh 激活函數,兩者相乘後輸出,有助於捕捉複雜的非線性特徵。 - 高品質音訊生成
WaveNet 可生成包括呼吸聲、嘴唇聲等自然語音細節,生成的語音聽起來更自然、人性化。
應用範圍
- 文字轉語音(TTS)系統
- 語音合成與轉換
- 音樂生成
- 其他音訊生成任務
優缺點
