TextToSpeech

含有「TextToSpeech」共 5 篇內容

全部內容

發佈日期由新至舊

2025/12/11

在生成式 AI 的戰場上，圖像與文字的模型競爭早已白熱化，但「聲音」這塊拼圖，一直是各大科技巨頭試圖攻克的最後一哩路。Google 於美國時間12月10日釋出的 Gemini 2.5 Text-to-Speech (TTS) 模型更新，或許正是我們期待已久的那個轉捩點。

#Google #Gemini #生成式AI

貓貓學習筆記

2024/05/29

TextToSpeech-語音重建

　　我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建，其中輸入前處理的部分上兩篇已經處理完，在進入預測音訊特徵前，讓我們先來理解最後的語音重建部分。

#AI #TextToSpeech

貓貓學習筆記

2024/05/28

TextToSpeech-Word Embedding

上回我們講到 Word Embedding 能夠將字詞表示從使用字典索引改成詞向量表示，且這個詞向量能夠包含一定程度上的語義訊息，今天就讓我們探討 Word Embedding 到底是如何訓練成的。

#AI #TextToSpeech #Pytorch

貓貓學習筆記

2024/05/27

TextToSpeech-神經網路如何理解文字

上篇我們簡單的了解了 TTS 想要達到的目標，但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚，這篇將針對訓練資料處理中的文字部分進行詳細說明，讓我們開始吧。

#AI #TextToSpeech #Pytorch

貓貓學習筆記

2024/05/24

TextToSpeech-語音初探

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

#AI #TextToSpeech

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌

‌

‌
‌

‌
‌
‌
‌
‌
‌
‌

‌

‌
‌