TextToSpeech-語音初探

2024/05/24 更新2024/05/24 發佈閱讀 2 分鐘

一.引言

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

二.TTS 技術的基本原理

　　文字轉語音技術主要包括兩個核心原理：文字分析 (Text Analysis) 和語音合成 (Speech Synthesis)。

文字分析 (Text Analysis)

文本正規化 (Text Normalization)：將輸入的文本轉換為標準形式，如將數字、符號、縮寫等轉換為全稱。
詞法分析 (Lexical Analysis)：將句子分割成詞或詞組。
音韻分析 (Phonetic Analysis)：將詞轉換為音標，對應發音。

為什麼要文字分析?

在設計深度學習架構時，很重要的一點便是定義出輸入輸出，該設計一個合理的輸入輸出是成功訓練的第一步

在先前的影像訓練中，圖片本身已經是一個數位化的結果，像素值也都限制在0-255的範圍，所以在圖像應用中，神經網路能直接利用這些像素值理解整張圖像的內容，所以並不用對輸入考慮太多

但到了文字這裡，情況就不太一樣了，我們輸入的文字該如何讓網路理解呢?

平常網頁或文字檔案若要顯示文字，會使用各種編碼方式定義出每個字，例如<我>這個字在UTF-8編碼下是&#x6211，但是&#x6211與ㄨㄛˇ這個發音可說是完全不相干，所以要讓神經網路理解<我>是<我>，勢必得找尋其他方案，所以文字分析便是讓句子轉換成一個網路能夠理解的格式，並且與我們想訓練的目標是有連結性的。

語音合成 (Speech Synthesis)

參數合成 (Parametric Synthesis)：使用預設的語音參數生成語音波形。
波形合成 (Waveform Synthesis)：直接生成語音波形，常見的方法有基於神經網絡的 WaveNet 和基於聲碼器的 Griffin-Lim 演算法。

語音合成部分則是將我們的文字編碼輸入經過神經網路後，我們希望他能轉換成某種音訊特徵，然後我們可以利用此音訊特徵將音訊重建出來，這個重建的過程便是語音合成。

於是統整下來，整個 TTL 流程可以分成幾個部分 :

輸入前處理 : 將文字編碼成網路能理解的模式
預測音訊特徵 : 使用神經網路將文字編碼轉換成音訊特徵
語音合成 : 使用神經網路將音訊特徵重建成音訊

三.結語

　　TTL 包含了文字與音訊的處理，要說明完善篇幅也不太足夠(像是前處理的Embedding，其中網路架構設計以及音訊重建時的細節)，於是我打算接下來會分個幾篇詳細說明 TTL 中的每個環節，這篇主要是了解 TTL 大致上有甚麼步驟，對其有個概念，下篇開始就會參雜一些比較硬的部分了，希望能夠說明得淺顯易懂。

#AI

#TextToSpeech

貓貓學習筆記AI之路有你有我

留言

貓貓學習筆記

10會員

21內容數

AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記，也包含一些心得，主要是幫助自己學習，若能同時幫助到不小心來到這裡的人，那也是好事一件 : )

貓貓學習筆記的其他內容

2024/07/08

TextToSpeech-聲學特徵轉換

我們前面幾篇已經講完TTS技術的一大半架構了，知道了如何將聲學特徵重建回音訊波形，也從中可以知道要是聲學特徵不完善，最終取得的結果也會不自然，剩下要探討該如何將文字轉換成聲學特徵，且能夠自然地表現停頓及細節變化，讓我們開始吧。

2024/07/08

TextToSpeech-聲學特徵轉換

2024/06/26

TextToSpeech-WaveNet 後日談

距離上篇已經快過一個月了，這個月我也沒閒著，我FF14生產職拉了不少等級進行了上篇 WaveNet 的後續調試，也比較與其他人實現的效果，又發現了幾個實作上可能造成困難的點，現在就跟各位分享一下~

2024/06/26

TextToSpeech-WaveNet 後日談

2024/06/01

TextToSpeech-WaveNet

WaveNet 提供了一個先進的架構用於音訊重建，但是，有必要嗎? Mel 頻譜本身就是經過數學轉換而獲得的結果，不能反運算嗎 ? 到底 WaveNet 在其中扮演了甚麼腳色 ?它是如何運作的 ? 讓我們在這篇好好探討下去。

2024/06/01

TextToSpeech-WaveNet

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19