TextToSpeech-聲學特徵轉換

閱讀時間約 6 分鐘

一.引言

  我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。

二.架構說明

  聲學特徵轉換流程可以簡單總結成三個步驟 :

1. 文本前處理

  所有 TTS 模型在生成聲學特徵之前都需要進行文本前處理(我們已在神經網路如何理解文字Word Embedding中描述了部分處理)。這包括:

  • 文本正規化:將文本轉換為標準格式,如展開縮寫、處理標點符號等。
  • 文本清理:去除不必要的字符和符號,確保文本純淨。
  • 音素轉換:將文本轉換為音素序列,這是生成聲學特徵的基礎,這部分根據語言的不同需要不同的拆解操作。

2. 序列建模

  TTS 模型需要對輸入的音素序列進行建模,以捕捉其時間和空間關係。這通常通過以下結構實現:

  • RNN/LSTM/GRU:循環神經網絡(RNN)及其變種(如 LSTM、GRU)用於處理序列數據。
  • Transformer:基於自注意力機制的 Transformer 可以捕捉長距離依賴。

3. 聲學特徵生成

  這是 TTS 的核心步驟,即將音素序列轉換為聲學特徵。常見的聲學特徵包括梅爾頻譜(Mel-spectrogram)和 MFCC。生成聲學特徵的過程通常包括:

  • 特徵提取:從音素序列中提取與語音相關的特徵。
  • 特徵映射:將提取的特徵映射到頻譜空間,生成可視化的聲學特徵。

三.Tacotron 2 架構分析

  我們前篇談到了 WaveNet,正好 Tacotron 2 便是使用 WaveNet 進行後續重建工作,我們可以分析 Tacotron 2 的架構(根據原始論文提供)來呈現前段所述的三步驟 :

raw-image

1. 文本前處理

  • Input Text:這邊接收已進行前處理文本訊息,論文內並沒有詳細描述前處理過程,只有敘述已完成正規化,可以視為已經過前段所述的各種處理。

2. 序列建模

  • Character Embedding:在Tacotron 2 中,選擇在架構中加入詞嵌入層,而不是使用預訓練的 Word2Vec 模型,在現今的架構中,使用這種方式讓模型在訓練中同時訓練詞嵌入的參數,能更符合各種任務。
  • 3 Conv Layers :卷積層用於提取局部特徵,這是序列建模中的一部分。
  • Bidirectional LSTM :雙向LSTM捕捉序列中的上下文信息,是序列建模的重要組件。
  • Location Sensitive Attention :這一部分通過注意力機制在解碼過程中對編碼器輸出進行加權求和,目的是鼓勵模型在輸入序列中一致地向前移動,減少解碼器重複或忽略某些子序列的可能性。
  • 2 Layer Pre-Net :進一步處理嵌入向量,助於穩定注意力機制並改善語音合成的準確性和自然度。
  • 2 LSTM Layers :這是最關鍵的一層,其主要作用為進行序列建模,接收來自Pre-Net的輸出和注意力上下文向量,生成新的隱藏狀態和輸出特徵。

3. 聲學特徵生成

  • Linear Projection :用於預測當前時間步的梅爾頻譜。
  • Stop Token:判斷生成過程何時結束。
  • 5 Conv Layer Post-Net :對預測的梅爾譜圖進行後處理,該網絡用於預測一個殘差,這個殘差會加到初始的梅爾頻譜預測上,從而提高整體的重建質量,通過這些卷積層,初始的頻譜預測得到進一步的細化和修正,使得生成的語音更加自然和清晰。
  • Mel Spectrogram :最終生成的梅爾譜圖表示

  經過一連串分析,可以看到基本架構不出三點,但其中每個部份能更夠變化及優化的部分就是各篇論文研究的方向,也是各個模型效果不盡相同的原因。

四.各模型介紹

  除了 Tacotron 2 外,還有許多模型被提出,這也是為何本篇沒有提出Tacotron 2 的實作,因為還有好多值得實作練習的模型,現在就讓我們來看看 :

Tacotron 2

  • 結構:使用 LSTM(長短期記憶)網絡來捕捉音素序列的時間和空間關係。
  • 優點:能夠有效捕捉短距離依賴關係,生成的聲學特徵質量高,適合高質量語音合成
  • 缺點:推理速度較慢,難以處理長距離依賴。

DeepVoice 3

  • 結構:使用基於位置的注意力機制來建模音素序列。
  • 優點:通過注意力機制可以捕捉更長距離的依賴關係,結構簡單,適合快速特徵提取。
  • 缺點:相比 Transformer,注意力機制的效率和效果稍遜。

FastSpeech

  • 結構:採用完全並行的 Transformer 結構來進行序列建模。
  • 優點:顯著提高了推理速度,能夠捕捉長距離依賴,並且更加穩定。
  • 缺點:模型訓練需要大量的數據和計算資源。

Transformer TTS

  • 結構:基於自注意力機制的 Transformer 網絡。
  • 優點:能夠有效捕捉全局上下文信息,適合處理長序列數據。
  • 缺點:推理速度較慢,特別是對於實時應用。

VITS

  • 結構:使用變分自編碼器(VAE)和流形學習(Flow-based)技術進行序列建模。
  • 優點:能夠生成多樣且自然的語音,並能捕捉複雜的時間依賴關係。
  • 缺點:模型相對複雜,訓練過程需要大量的計算資源。

共同點

  • 文本前處理:所有模型都需要對文本進行預處理,包括正規化和音素轉換。
  • 序列建模:無論使用 LSTM、CNN 還是 Transformer,這些模型都需要對音素序列進行建模,以捕捉時間和空間關係。
  • 聲學特徵生成:所有模型都需將提取的特徵映射到聲學空間,生成梅爾頻譜或其他聲學特徵。

不同點

  • 序列建模方式:LSTM 適合短距離依賴,Transformer 和 VAE 則適合捕捉長距離依賴。
  • 特徵提取和映射方式:不同模型使用的技術和結構不同,影響了語音生成的質量和速度。
  • 生成速度和穩定性:FastSpeech 和 VITS 通過並行和端到端的方式,顯著提高了生成速度和穩定性,而 Tacotron 2 和 Transformer TTS 在質量上有所提升,但速度較慢。

四.結論

  這篇主要分析了聲學特徵轉換的基本流程,並帶出現在常看到的幾種模型,根據應用場景的不同,可以選擇適合的模型。例如,對於實時應用,FastSpeech 是不錯的選擇;對於需要高質量語音合成的應用,VITS 是最佳選擇,並且每個模型都有著不同的亮點,接下來我可能會研究看看 VITS,或是直接前往其他主題。

8會員
21內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
發表第一個留言支持創作者!
貓貓學習筆記 的其他內容
距離上篇已經快過一個月了,這個月我也沒閒著,我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試,也比較與其他人實現的效果,又發現了幾個實作上可能造成困難的點,現在就跟各位分享一下~
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
距離上篇已經快過一個月了,這個月我也沒閒著,我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試,也比較與其他人實現的效果,又發現了幾個實作上可能造成困難的點,現在就跟各位分享一下~
WaveNet 提供了一個先進的架構用於音訊重建,但是,有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果,不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示,且這個詞向量能夠包含一定程度上的語義訊息,今天就讓我們探討 Word Embedding 到底是如何訓練成的。
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
心血來潮,跟Siri亂聊一下~🤩 Siri:「請問軟糖傷心難過的時候會變成什麼?答案:QQ軟糖。」🤪 ​我:「不好笑。」🤓 Siri:「這樣在天氣熱的時候聽,不是正好嗎?」🤨​ 我:「呃…好吧!你說的好像也對!」😂
Thumbnail
 如果我們有勇氣追求,所有夢想都能成真。 All of our dreams can come true if we have the courage to pursue them. 華特.迪士尼 Walt Disney 🍀🍀🍀fumi老師:❤️❤️❤️ 🥰🥰🥰此生為何而來?人
Thumbnail
戰隊創立真的有點麻煩,而且實在不懂老師為什麼這麼關注我們耶?是打算讓我們在學校做些什麼嗎?
Thumbnail
2022.11.13靈氣課程上課花絮紀錄: 🌸這是一個較高頻率的點化的場域,所以特別帶著同學做相當~相當深~的靜心冥想! 🥰我所帶領的每一場的點化過程體驗,會隨著報名的同學狀態而有所不同,有些學生要先卸除掉所有所有困住的內在框架,有些學生需要的是更清晰的人思維與洞見,有些學生只需要好好的放鬆下來
Thumbnail
Yahoo奇摩在台深耕逾20年,擁有橫跨內容、電商、數位行銷及通訊等全方位數位服務,透過「Yahoo奇摩暑期實習計畫」持續培育網路新秀,推出至今已屆滿15年,正逢數位環境發生劇烈變動,5G開台、隱私權政策等議題陸續開展
Thumbnail
疫情影響下,許多教學現場都必須強迫轉型轉到線上進行教學,但是線上教學真的只能照本宣科的唸著 PPT進行教學嗎? 常說 PPT 只是種「工具」,但是經由教學者不同的創意與巧思的加入,卻能激發迸生出許多從來沒有想過得可能。 以下蒐羅了這陣子別具巧思的教學簡報設計案例與資源,提供給大家參考。
隨著網路的發達、普及,現在市面上已經有各式各樣的線上英文教學平台,每個品牌提供的服務也許個有不同,但普遍來說都有下列特徵: 預約制為主流 單堂課平均價格NT.350 提供免費試聽
隨著網路的發達、普及,現在市面上已經有各式各樣的線上英文教學平台,每個品牌提供的服務也許個有不同,但普遍來說都有下列特徵: 基本上為一對一教學 授課時間大多為50
隨著網路的發達、普及,現在市面上已經有各式各樣的線上英文教學平台,每個品牌提供的服務也許個有不同,但普遍來說都有以下特徵: 講師大多為菲律賓籍 上課使用Skype或Zoom
Thumbnail
本節主要試圖探究路翎作品的語言風格和敘事特點,以釐清先前研究者討論中之歧見,同時亦欲藉此申說對於路翎作品的不同看法。路翎好用繁複的長句式和悖反的情感修飾語,特別是四十年代的小說,聚焦於人物內心的心理刻劃,經常採取詮釋性的敘事模式,則一貫是路翎的創作特點,而「複調小說」和「知識語言」的問題,向來是研究
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
心血來潮,跟Siri亂聊一下~🤩 Siri:「請問軟糖傷心難過的時候會變成什麼?答案:QQ軟糖。」🤪 ​我:「不好笑。」🤓 Siri:「這樣在天氣熱的時候聽,不是正好嗎?」🤨​ 我:「呃…好吧!你說的好像也對!」😂
Thumbnail
 如果我們有勇氣追求,所有夢想都能成真。 All of our dreams can come true if we have the courage to pursue them. 華特.迪士尼 Walt Disney 🍀🍀🍀fumi老師:❤️❤️❤️ 🥰🥰🥰此生為何而來?人
Thumbnail
戰隊創立真的有點麻煩,而且實在不懂老師為什麼這麼關注我們耶?是打算讓我們在學校做些什麼嗎?
Thumbnail
2022.11.13靈氣課程上課花絮紀錄: 🌸這是一個較高頻率的點化的場域,所以特別帶著同學做相當~相當深~的靜心冥想! 🥰我所帶領的每一場的點化過程體驗,會隨著報名的同學狀態而有所不同,有些學生要先卸除掉所有所有困住的內在框架,有些學生需要的是更清晰的人思維與洞見,有些學生只需要好好的放鬆下來
Thumbnail
Yahoo奇摩在台深耕逾20年,擁有橫跨內容、電商、數位行銷及通訊等全方位數位服務,透過「Yahoo奇摩暑期實習計畫」持續培育網路新秀,推出至今已屆滿15年,正逢數位環境發生劇烈變動,5G開台、隱私權政策等議題陸續開展
Thumbnail
疫情影響下,許多教學現場都必須強迫轉型轉到線上進行教學,但是線上教學真的只能照本宣科的唸著 PPT進行教學嗎? 常說 PPT 只是種「工具」,但是經由教學者不同的創意與巧思的加入,卻能激發迸生出許多從來沒有想過得可能。 以下蒐羅了這陣子別具巧思的教學簡報設計案例與資源,提供給大家參考。
隨著網路的發達、普及,現在市面上已經有各式各樣的線上英文教學平台,每個品牌提供的服務也許個有不同,但普遍來說都有下列特徵: 預約制為主流 單堂課平均價格NT.350 提供免費試聽
隨著網路的發達、普及,現在市面上已經有各式各樣的線上英文教學平台,每個品牌提供的服務也許個有不同,但普遍來說都有下列特徵: 基本上為一對一教學 授課時間大多為50
隨著網路的發達、普及,現在市面上已經有各式各樣的線上英文教學平台,每個品牌提供的服務也許個有不同,但普遍來說都有以下特徵: 講師大多為菲律賓籍 上課使用Skype或Zoom
Thumbnail
本節主要試圖探究路翎作品的語言風格和敘事特點,以釐清先前研究者討論中之歧見,同時亦欲藉此申說對於路翎作品的不同看法。路翎好用繁複的長句式和悖反的情感修飾語,特別是四十年代的小說,聚焦於人物內心的心理刻劃,經常採取詮釋性的敘事模式,則一貫是路翎的創作特點,而「複調小說」和「知識語言」的問題,向來是研究