TextToSpeech-語音重建

閱讀時間約 4 分鐘

一. 引言

  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理預測音訊特徵語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。

二. 為什麼要進行語音重建

  在進入正題前,也許有人會這麼想,深度學習這麼強大,為什麼不直接預測語音波形,還要先預測音訊特徵,再重建回語音波形呢?

主要有幾點原因 :

  • 維度和複雜度問題 : 直接預測語音波形需要處理非常高的數據維度和複雜度,語音波形是連續的且高頻變化的信號,這需要模型處理大量的樣本點(每秒鐘數千到數萬個樣本點),直接預測波形的計算資源需求非常高,且難以達到高精度。
  • 稀疏表示的問題 : 語音波形中包含大量的細節和噪聲,這使得直接預測波形變得非常困難。而使用音訊特徵的話,去除了許多高頻噪聲和細節,保留了語音的主要特徵,讓模型更容易學習和預測。
  • 現有技術的成熟 : 現有的Vocoder技術已經證明了其在重建音訊方面的高質量和穩定性。這些技術能夠有效地將音訊特徵轉換為自然的語音波形,並且已經在多個應用中得到驗證。
  • 簡化學習目標 : 模型只需關注文本到音訊特徵的映射,而不需要處理高維度的波形數據。這降低了模型的複雜度,提高了訓練效率和效果。
  • 可解釋性和可控性 : 音訊特徵提供了一種可解釋的中介表示,使得研究者可以更容易地分析和調試模型,此外,通過調整這個特徵,可以實現對最終語音的一些控制(如先前圖像風格轉換的概念),例如音高、速度和音色的調整。

簡單來說,就是直接由文字轉成語音太過於複雜,且同時也有人進行音訊特徵轉換成波形的研究,那就別頭鐵,直接研究文字轉音訊特徵,然後再將兩者結合起來。

三. 要使用哪種音訊特徵

  能夠用於重建音訊的特徵有很多種(這裡只舉例了幾種),每種特徵都有著他的特性 :

  • 線性特徵 : 通過短時傅里葉變換(STFT)直接從音訊信號中提取的頻率分布。

優點

提供了完整的頻率信息,包含高頻和低頻細節。

適用於一些需要高頻解析度的應用。

缺點

頻譜維度高,數據量大,處理複雜。

沒有模擬人耳的感知特點,可能導致重建的音訊不自然。

  • Chroma特徵 : 主要反映音訊的和弦和音調信息,每個維度代表一個特定的音高類別

優點

適合於音樂處理,能有效捕捉音調和和弦信息。

缺點

對語音信號的頻率解析度較低,不適合精細的音訊重建。

主要用於音樂信息檢索和音樂分析。

低維表示,適合於旋律和音調分析。

  • Mel頻譜 : 通過將音訊信號分幀後進行短時傅里葉變換(STFT),並將頻譜圖應用Mel尺度濾波器組處理後得到的頻譜表示,模擬人耳對不同頻率的感知能力。

優點

模擬人耳的感知特性,能夠更自然地重建語音。

頻譜平滑,減少噪聲和不必要的細節。

資料量壓縮,有效降低維度,計算效率高。

缺點

可能會丟失一些高頻細節。

須進行濾波器設計和轉換計算,過程相對複雜。

雖然有多種音訊特徵可以用於音訊重建,但Mel頻譜因其擬合人耳感知的特性、平滑和壓縮、計算效率高以及廣泛的工具支持,成為了音訊重建中的首選。

研究者選擇Mel頻譜,是為了在保證語音自然度和清晰度的前提下,提高模型的訓練效率和生成效果。這些優勢使得Mel頻譜在語音合成和重建領域占據了重要地位。

四. 語音重建方法

  音訊重建技術(Vocoder)是指將語音的頻譜特徵轉換成波形的過程,這個過程包括對語音的頻譜參數進行解碼,並生成聽起來自然的語音信號,發展至今,也有許多方法能夠達成 :

傳統音訊重建技術

  • Griffin-Lim算法:這是一種經典的相位重建算法,用於從頻譜恢復波形。該算法反覆調整相位,最終產生與目標頻譜匹配的波形。
  • 聲碼器(Vocoder):傳統的聲碼器技術,如LPC(線性預測編碼)和STRAIGHT,利用語音的數學模型進行重建,生成語音波形。

現代音訊重建技術

  • WaveNet:由Google提出的一種生成模型,使用深度神經網絡來直接生成波形。WaveNet通過訓練大量的語音數據,學習到生成高質量語音的能力。
  • WaveGlow:這是一種基於Glow模型的語音生成技術,結合了流式模型和生成對抗網絡(GAN),能夠快速且高質量地生成語音波形。
  • MelGAN:這是一種基於生成對抗網絡(GAN)的技術,能夠從Mel頻譜生成高質量的語音波形,並且具有生成速度快的優勢。

五. 結語

  音訊重建是 TTS 中很重要的一環,若是重建的不好,最終結果聽起來也會不夠自然,今天說明了為何音訊重建而不是直接預測波形的理由,以及音訊特徵的選擇,下篇會針對 WaveNet 進行說明,看看目前使用神經網路是如何進行 Mel 頻譜到音訊波形的轉換的,至於要如何從文字預測 Mel 頻譜再稍微等等吶。

  

7會員
19內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
發表第一個留言支持創作者!
貓貓學習筆記 的其他內容
圖像風格轉換(三)-我全~都要
閱讀時間約 5 分鐘
AI 小撇步-Distilling Knowledge
閱讀時間約 14 分鐘
TextToSpeech-語音初探
閱讀時間約 2 分鐘
TextToSpeech-Word Embedding
閱讀時間約 17 分鐘
你可能也想看
語音搜尋對SEO的前景影響隨著語音搜尋技術的進步和普及,它對搜索引擎優化(SEO)的前景產生了深遠的影響。本文將探討語音搜尋對SEO的影響及未來發展,並介紹相關的SEO服務和趨勢。 語音搜尋的普及使得人們可以通過語音命令來進行搜索,而不再需要輸入文字。這使得搜索過程更加便捷和自然,也提高了搜索的準確性和效率。然而,對於SE
avatar
murguia amiya
2024-03-15
【語音筆記術:解鎖1分鐘語音筆記強大潛力的三個框架】我在【語音筆記術:用語音筆記可以為你克服職業生涯的3大挑戰】介紹了語音筆記能夠在生活與職業幫助你解決的3大挑戰。 這篇文章要介紹給你有效利用語音筆記的三個框架。 活用這3個框架,你能在短時間內捕捉靈感, 提煉出有價值的見解,讓現代科技成為幫助你成功的強大工具。 框架1 - 用語音筆記瞬間捕捉
Thumbnail
avatar
王啟樺
2024-01-13
【語音辨識時代的筆記與創作策略】在這個語音辨識技術快速發展的時代, 如何有效利用這項技術來提升我們的創作和學習效率成為了一個值得探討的話題。 以下是我對於利用語音辨識技術進行有效筆記和創作的一些思考和策略。 ▋策略1 - 高效利用語音辨識轉換內容 利用語音辨識技術可以迅速捕捉我們的想法和語言, 進而將其轉換為文字。 這
avatar
王啟樺
2023-12-14
【語音筆記術:用語音筆記可以為你克服職業生涯的3大挑戰】我在【語音筆記術:解鎖高效率,3個使用語音產生素材的創作模式】提到用語音筆記可以為你收集素材,滿足工作與生活中的溝通需求。 活用語音筆記,其實進一步可以幫助你克服這3大工作中的挑戰: 挑戰1 - 快速記錄與整理想法 當你在工作與家庭上的責任愈來愈多, 快速紀錄與整理想法,就是每天會大量重複的
Thumbnail
avatar
王啟樺
2023-12-13
【語音筆記術:解鎖高效率,3個使用語音產生素材的創作模式】無論你是不是有寫作習慣,你一定都會與人溝通。 在工作與同事上級溝通,在生活與家人朋友溝通,在獨處時與自己溝通。 溝通順不順暢,有沒有內容,其實就在於平時對「素材」的累積。 透過運用語音筆記,你可以很自然捕捉自己的想法成為素材, 將日常的洞察與想法,轉換為實際價值。
Thumbnail
avatar
王啟樺
2023-11-13
與音樂劇有約前幾天下班後去聽一場演唱會,演唱者是我很喜歡的音樂劇演員。
Thumbnail
avatar
claire
2023-11-03
音樂與科學——從重建記憶到建立自己的記憶宮殿 Vol. 3在音樂與科學的第三、第四堂課,余道昌博士分別從視覺與聯想、由上而下的神經迴路學習方式兩個主題出發,帶領同學去探索自己的視覺與記憶的連結,以及回溯甚至是學習重建自己的學習方式。首先,從你是怎麼記憶的開始?
Thumbnail
avatar
心理之道
2023-05-07
文字轉語音範例音檔(禪修朗讀):「正念的益處、經行(或行禪)」正念的益處 這種快樂源於高貴的情操,能帶來真正的滿足。感官的快樂無法與它相比,而且只要你願意修練,這種快樂唾手可得,你不需要付一分錢就能得到它。 把握主要的掌控法 經行(或行禪) 本範例音檔使用網際智慧文字轉語音技術。
Thumbnail
avatar
GPT工作術|與你一起補給工作的AI能量 智慧寫作·聲音創造·法遵合規
2022-03-01
與地獄的首次接觸—重金屬音樂雜談(ㄧ)我,21歲,來自台北,大學三年級,夜間部,在住處附近的科技公司擔任助理,接觸音樂的契機是來自於台灣的本土樂團—五月天。 這樣平凡的我居然,被拉進了重金屬音樂的世界?!
Thumbnail
avatar
北科大-邱進益
2022-02-25
課堂筆記|語言之外的陪伴與治療-正念頌缽音療講師:陳永宏臨床心理師 助理:張凱宴諮商心理師 這天,我進入弘光科技大學參加大專校院輔導人員的研習,而今天的主題是「正念頌缽音療」。 永宏心理師是一位喜歡音樂的人,從小也是在樂團及搖滾樂中成長,後來因為生命遭遇困難,而走上學習「心理專業」的道路。而此次研習的助理凱宴心理師,其實就是永宏心理師的妻子
Thumbnail
avatar
胡瑋婷
2021-11-19