TextToSpeech-語音初探

2024/05/24 更新2024/05/24 發佈閱讀 2 分鐘

一.引言

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

二.TTS 技術的基本原理

　　文字轉語音技術主要包括兩個核心原理：文字分析 (Text Analysis) 和語音合成 (Speech Synthesis)。

文字分析 (Text Analysis)

文本正規化 (Text Normalization)：將輸入的文本轉換為標準形式，如將數字、符號、縮寫等轉換為全稱。
詞法分析 (Lexical Analysis)：將句子分割成詞或詞組。
音韻分析 (Phonetic Analysis)：將詞轉換為音標，對應發音。

為什麼要文字分析?

在設計深度學習架構時，很重要的一點便是定義出輸入輸出，該設計一個合理的輸入輸出是成功訓練的第一步

在先前的影像訓練中，圖片本身已經是一個數位化的結果，像素值也都限制在0-255的範圍，所以在圖像應用中，神經網路能直接利用這些像素值理解整張圖像的內容，所以並不用對輸入考慮太多

但到了文字這裡，情況就不太一樣了，我們輸入的文字該如何讓網路理解呢?

平常網頁或文字檔案若要顯示文字，會使用各種編碼方式定義出每個字，例如<我>這個字在UTF-8編碼下是&#x6211，但是&#x6211與ㄨㄛˇ這個發音可說是完全不相干，所以要讓神經網路理解<我>是<我>，勢必得找尋其他方案，所以文字分析便是讓句子轉換成一個網路能夠理解的格式，並且與我們想訓練的目標是有連結性的。

語音合成 (Speech Synthesis)

參數合成 (Parametric Synthesis)：使用預設的語音參數生成語音波形。
波形合成 (Waveform Synthesis)：直接生成語音波形，常見的方法有基於神經網絡的 WaveNet 和基於聲碼器的 Griffin-Lim 演算法。

語音合成部分則是將我們的文字編碼輸入經過神經網路後，我們希望他能轉換成某種音訊特徵，然後我們可以利用此音訊特徵將音訊重建出來，這個重建的過程便是語音合成。

於是統整下來，整個 TTL 流程可以分成幾個部分 :

輸入前處理 : 將文字編碼成網路能理解的模式
預測音訊特徵 : 使用神經網路將文字編碼轉換成音訊特徵
語音合成 : 使用神經網路將音訊特徵重建成音訊

三.結語

　　TTL 包含了文字與音訊的處理，要說明完善篇幅也不太足夠(像是前處理的Embedding，其中網路架構設計以及音訊重建時的細節)，於是我打算接下來會分個幾篇詳細說明 TTL 中的每個環節，這篇主要是了解 TTL 大致上有甚麼步驟，對其有個概念，下篇開始就會參雜一些比較硬的部分了，希望能夠說明得淺顯易懂。

#AI

#TextToSpeech

貓貓學習筆記AI之路有你有我

留言

留言分享你的想法！

貓貓學習筆記

10會員

21內容數

AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記，也包含一些心得，主要是幫助自己學習，若能同時幫助到不小心來到這裡的人，那也是好事一件 : )

貓貓學習筆記的其他內容

2024/07/08

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/07/08

TextToSpeech-聲學特徵轉換

2024/06/26

TextToSpeech-WaveNet 後日談

距離上篇已經快過一個月了，這個月我也沒閒著，我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試，也比較與其他人實現的效果，又發現了幾個實作上可能造成困難的點，現在就跟各位分享一下~

2024/06/26

TextToSpeech-WaveNet 後日談

2024/06/01

TextToSpeech-WaveNet

WaveNet 提供了一個先進的架構用於音訊重建，但是，有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果，不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。

2024/06/01

TextToSpeech-WaveNet

看更多

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

#懶人料理#食譜#健康甜點

2025/10/15

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19