在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
文字轉語音技術主要包括兩個核心原理:文字分析 (Text Analysis) 和語音合成 (Speech Synthesis)。
文字分析 (Text Analysis)
為什麼要文字分析?
在設計深度學習架構時,很重要的一點便是定義出輸入輸出,該設計一個合理的輸入輸出是成功訓練的第一步
在先前的影像訓練中,圖片本身已經是一個數位化的結果,像素值也都限制在0-255的範圍,所以在圖像應用中,神經網路能直接利用這些像素值理解整張圖像的內容,所以並不用對輸入考慮太多
但到了文字這裡,情況就不太一樣了,我們輸入的文字該如何讓網路理解呢?
平常網頁或文字檔案若要顯示文字,會使用各種編碼方式定義出每個字,例如<我>這個字在UTF-8編碼下是我
,但是我
與ㄨㄛˇ這個發音可說是完全不相干,所以要讓神經網路理解<我>是<我>,勢必得找尋其他方案,所以文字分析便是讓句子轉換成一個網路能夠理解的格式,並且與我們想訓練的目標是有連結性的。
語音合成 (Speech Synthesis)
語音合成部分則是將我們的文字編碼輸入經過神經網路後,我們希望他能轉換成某種音訊特徵,然後我們可以利用此音訊特徵將音訊重建出來,這個重建的過程便是語音合成。
於是統整下來,整個 TTL 流程可以分成幾個部分 :
TTL 包含了文字與音訊的處理,要說明完善篇幅也不太足夠(像是前處理的Embedding,其中網路架構設計以及音訊重建時的細節),於是我打算接下來會分個幾篇詳細說明 TTL 中的每個環節,這篇主要是了解 TTL 大致上有甚麼步驟,對其有個概念,下篇開始就會參雜一些比較硬的部分了,希望能夠說明得淺顯易懂。