TextToSpeech-語音初探

閱讀時間約 2 分鐘

一.引言

  在 AI 應用中,圖像語音文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。

二.TTS 技術的基本原理

  文字轉語音技術主要包括兩個核心原理:文字分析 (Text Analysis) 和語音合成 (Speech Synthesis)。

文字分析 (Text Analysis)

  • 文本正規化 (Text Normalization): 將輸入的文本轉換為標準形式,如將數字、符號、縮寫等轉換為全稱。
  • 詞法分析 (Lexical Analysis): 將句子分割成詞或詞組。
  • 音韻分析 (Phonetic Analysis): 將詞轉換為音標,對應發音。

為什麼要文字分析?

在設計深度學習架構時,很重要的一點便是定義出輸入輸出,該設計一個合理的輸入輸出是成功訓練的第一步

在先前的影像訓練中,圖片本身已經是一個數位化的結果,像素值也都限制在0-255的範圍,所以在圖像應用中,神經網路能直接利用這些像素值理解整張圖像的內容,所以並不用對輸入考慮太多

但到了文字這裡,情況就不太一樣了,我們輸入的文字該如何讓網路理解呢?

平常網頁或文字檔案若要顯示文字,會使用各種編碼方式定義出每個字,例如<我>這個字在UTF-8編碼下是&#x6211,但是&#x6211與ㄨㄛˇ這個發音可說是完全不相干,所以要讓神經網路理解<我>是<我>,勢必得找尋其他方案,所以文字分析便是讓句子轉換成一個網路能夠理解的格式,並且與我們想訓練的目標是有連結性的。

語音合成 (Speech Synthesis)

  • 參數合成 (Parametric Synthesis): 使用預設的語音參數生成語音波形。
  • 波形合成 (Waveform Synthesis): 直接生成語音波形,常見的方法有基於神經網絡的 WaveNet 和基於聲碼器的 Griffin-Lim 演算法。

語音合成部分則是將我們的文字編碼輸入經過神經網路後,我們希望他能轉換成某種音訊特徵,然後我們可以利用此音訊特徵將音訊重建出來,這個重建的過程便是語音合成。

於是統整下來,整個 TTL 流程可以分成幾個部分 :

  1. 輸入前處理 : 將文字編碼成網路能理解的模式
  2. 預測音訊特徵 : 使用神經網路將文字編碼轉換成音訊特徵
  3. 語音合成 : 使用神經網路將音訊特徵重建成音訊

三.結語

  TTL 包含了文字與音訊的處理,要說明完善篇幅也不太足夠(像是前處理的Embedding,其中網路架構設計以及音訊重建時的細節),於是我打算接下來會分個幾篇詳細說明 TTL 中的每個環節,這篇主要是了解 TTL 大致上有甚麼步驟,對其有個概念,下篇開始就會參雜一些比較硬的部分了,希望能夠說明得淺顯易懂。

7會員
19內容數
AI、電腦視覺、圖像處理、AWS等等持續學習時的學習筆記,也包含一些心得,主要是幫助自己學習,若能同時幫助到不小心來到這裡的人,那也是好事一件 : )
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
語音搜尋對SEO的前景影響隨著語音搜尋技術的進步和普及,它對搜索引擎優化(SEO)的前景產生了深遠的影響。本文將探討語音搜尋對SEO的影響及未來發展,並介紹相關的SEO服務和趨勢。 語音搜尋的普及使得人們可以通過語音命令來進行搜索,而不再需要輸入文字。這使得搜索過程更加便捷和自然,也提高了搜索的準確性和效率。然而,對於SE
avatar
murguia amiya
2024-03-15
【語音筆記術:解鎖1分鐘語音筆記強大潛力的三個框架】我在【語音筆記術:用語音筆記可以為你克服職業生涯的3大挑戰】介紹了語音筆記能夠在生活與職業幫助你解決的3大挑戰。 這篇文章要介紹給你有效利用語音筆記的三個框架。 活用這3個框架,你能在短時間內捕捉靈感, 提煉出有價值的見解,讓現代科技成為幫助你成功的強大工具。 框架1 - 用語音筆記瞬間捕捉
Thumbnail
avatar
王啟樺
2024-01-13
【語音辨識時代的筆記與創作策略】在這個語音辨識技術快速發展的時代, 如何有效利用這項技術來提升我們的創作和學習效率成為了一個值得探討的話題。 以下是我對於利用語音辨識技術進行有效筆記和創作的一些思考和策略。 ▋策略1 - 高效利用語音辨識轉換內容 利用語音辨識技術可以迅速捕捉我們的想法和語言, 進而將其轉換為文字。 這
avatar
王啟樺
2023-12-14
【語音筆記術:用語音筆記可以為你克服職業生涯的3大挑戰】我在【語音筆記術:解鎖高效率,3個使用語音產生素材的創作模式】提到用語音筆記可以為你收集素材,滿足工作與生活中的溝通需求。 活用語音筆記,其實進一步可以幫助你克服這3大工作中的挑戰: 挑戰1 - 快速記錄與整理想法 當你在工作與家庭上的責任愈來愈多, 快速紀錄與整理想法,就是每天會大量重複的
Thumbnail
avatar
王啟樺
2023-12-13
【語音筆記術:解鎖高效率,3個使用語音產生素材的創作模式】無論你是不是有寫作習慣,你一定都會與人溝通。 在工作與同事上級溝通,在生活與家人朋友溝通,在獨處時與自己溝通。 溝通順不順暢,有沒有內容,其實就在於平時對「素材」的累積。 透過運用語音筆記,你可以很自然捕捉自己的想法成為素材, 將日常的洞察與想法,轉換為實際價值。
Thumbnail
avatar
王啟樺
2023-11-13
與音樂劇有約前幾天下班後去聽一場演唱會,演唱者是我很喜歡的音樂劇演員。
Thumbnail
avatar
claire
2023-11-03
與陰雨天有關的十個英文俚語或片語Rain on Someone's Parade(搞砸某人的計劃) 解釋: 意指使某人的計劃或活動受到干擾或破壞。 例句: "I hate to rain on your parade, but the picnic might need to be postponed due to the h
Thumbnail
avatar
Artistic
2023-09-07
【語音辨識創作術:每看3分鐘2倍速的教學影片,就自言自語講3段話,收集寫作的素材原來這麼簡單】不管你是創作者和學習者,都應該試試看用語音辨識來協助你學得更好與做得更多! 你需要的工具有 手機上能語音辨識的軟體 (我推薦DayOne) 一部想要深入學習的影片 (看看自己今天想學什麼) 一個計時器(我都用iPhone內建的計時器) 接下來跟著這3個步驟! 步驟1 - 高效率觀看影片,就是看3分鐘
Thumbnail
avatar
王啟樺
2023-06-26
語音書寫|運動中的寫作挑戰|登山與爬樓梯的寫作冒險我是一個喜歡運動與寫作的人,然而在喧囂的都市裡同時做這兩件事情並不容易。我嘗試過走路時進行語音書寫,但發現這樣做的難度比預期的要大。那有沒有其它選擇呢?有的,那就是爬山或是爬樓梯!來聽聽我的想法吧!
Thumbnail
avatar
阿魯貓的閱讀流水帳
2023-05-29
【Google Colab Python系列】 初探Whisper: 來一段Youtube影片進行語音辨識吧!這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式,並簡單的對Youtube影片進行線上翻譯的工作,主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜,就讓我們一起來玩玩看吧! 在這之前我們還是說一下Whisper它是什麼樣的一個工具,能夠做什麼? Whisper 是OpenAI
Thumbnail
avatar
阿Han
2023-04-23