TIMIT

更新於 發佈於 閱讀時間約 3 分鐘

TIMIT 是一個經典且廣泛使用的語音資料庫,全名為「Texas Instruments/Massachusetts Institute of Technology Acoustic-Phonetic Continuous Speech Corpus」。它主要用於聲學語音學研究和自動語音識別系統的開發與評估。下面是關於 TIMIT 的詳細介紹:

  • 語料內容:包含來自美國8大主要方言區的630位母語為美式英語的說話者,每人錄製10句語音,共計約6300句,總長約5小時語音數據。
  • 語音特性:每句語音為朗讀語音,包含豐富的語音學特徵,以利研究語音聲學和語音辨識。
  • 標註資料:提供時間對齊的正字法(orthographic)、音素(phonetic)及詞彙(word)轉錄,且標註均經過人工校驗,便於準確的語音分析和模型訓練。
  • 錄音細節:語音以16-bit精度、16kHz取樣率數字錄製,錄音環境為專業隔音室,保證音質清晰。
  • 語句設計:包含三種類型的句子—
    • 兩句方言標語句(Dialect “shibboleth” sentences),用於揭示方言變體,
    • 450句音素緊湊句(Phonemically-Compact sentences),覆蓋豐富的音素組合,
    • 1890句音素多樣句(Phonetically-Diverse sentences),來自其他文獻,增加語音多樣性。
  • 訓練與測試分割:資料庫提供有平衡方言和音素覆蓋的訓練與測試子集,其中測試集包含24位說話者資料作為核心集,以確保模型的泛化性能。
  • 合作機構:由麻省理工學院(MIT)、SRI國際研究所與德州儀器公司(TI)共同開發,國家標準與技術研究院(NIST)負責校驗與發布。
  • 用途:是語音識別、語音合成、語音轉錄及語音學研究的重要標準數據集,具有豐富的語音學信息和高質量標註。
  • 限制:TIMIT資料集非免費公開,使用者需透過語言資料聯盟(Linguistic Data Consortium, LDC)購買授權取得。

簡言之,TIMIT 是一個設計精良且高度標註的美式英語語音資料庫,專為推動語音技術和聲學語音學研究而建,是評估和開發語音處理系統的重要基準資料集。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
18會員
461內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/14
LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明: 資料規模與來源: LibriSpeech 是一個包含約1000小時、取樣率為16kHz
2025/08/14
LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明: 資料規模與來源: LibriSpeech 是一個包含約1000小時、取樣率為16kHz
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
2025/08/14
MNIST(Modified National Institute of Standards and Technology)是一個非常經典且廣泛使用的手寫數字影像資料集,常被用來作為機器學習和深度學習模型在影像分類任務中的訓練與評估標準。 以下是 MNIST 的主要特點: 資料規模:包含60,0
2025/08/14
MNIST(Modified National Institute of Standards and Technology)是一個非常經典且廣泛使用的手寫數字影像資料集,常被用來作為機器學習和深度學習模型在影像分類任務中的訓練與評估標準。 以下是 MNIST 的主要特點: 資料規模:包含60,0
看更多
你可能也想看
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
我們前面幾篇已經講完TTS技術的一大半架構了,知道了如何將聲學特徵重建回音訊波形,也從中可以知道要是聲學特徵不完善,最終取得的結果也會不自然,剩下要探討該如何將文字轉換成聲學特徵,且能夠自然地表現停頓及細節變化,讓我們開始吧。
Thumbnail
這篇教學介紹如何進行中文語音訓練,包括準備素材、GPT-SoVITS安裝步驟、音頻切割、字幕打標和推理等。文章提供了清晰的教學步驟,適合初學者閱讀。
Thumbnail
這篇教學介紹如何進行中文語音訓練,包括準備素材、GPT-SoVITS安裝步驟、音頻切割、字幕打標和推理等。文章提供了清晰的教學步驟,適合初學者閱讀。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
這篇文章介紹臺語語詞聽寫軟體,包括聽例句寫語詞和聽語詞來練拼音的。功能有選擇漢字+拼音抑是干焦拼音的練習方式,以及白話字抑臺羅的選擇。透過對答案,使用者能即時瞭解自己的練習結果。使用方式、適用對象以及認證適用性都有詳細介紹。兩個網站提供真有效率的學習方法,幫助學習者提升臺語的聽寫能力。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
Thumbnail
「人工智障計畫」也執行了好一段時間了,關於這個專案中文字轉語音的方案,在之前的筆記中也有稍微提到,為了達成能自訂聲線,並且能完全離線運作兩個條件,我已經做過了不少嘗試。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News