TIMIT 是一個經典且廣泛使用的語音資料庫,全名為「Texas Instruments/Massachusetts Institute of Technology Acoustic-Phonetic Continuous Speech Corpus」。它主要用於聲學語音學研究和自動語音識別系統的開發與評估。下面是關於 TIMIT 的詳細介紹:
- 語料內容:包含來自美國8大主要方言區的630位母語為美式英語的說話者,每人錄製10句語音,共計約6300句,總長約5小時語音數據。
- 語音特性:每句語音為朗讀語音,包含豐富的語音學特徵,以利研究語音聲學和語音辨識。
- 標註資料:提供時間對齊的正字法(orthographic)、音素(phonetic)及詞彙(word)轉錄,且標註均經過人工校驗,便於準確的語音分析和模型訓練。
- 錄音細節:語音以16-bit精度、16kHz取樣率數字錄製,錄音環境為專業隔音室,保證音質清晰。
- 語句設計:包含三種類型的句子—
- 兩句方言標語句(Dialect “shibboleth” sentences),用於揭示方言變體,
- 450句音素緊湊句(Phonemically-Compact sentences),覆蓋豐富的音素組合,
- 1890句音素多樣句(Phonetically-Diverse sentences),來自其他文獻,增加語音多樣性。
- 訓練與測試分割:資料庫提供有平衡方言和音素覆蓋的訓練與測試子集,其中測試集包含24位說話者資料作為核心集,以確保模型的泛化性能。
- 合作機構:由麻省理工學院(MIT)、SRI國際研究所與德州儀器公司(TI)共同開發,國家標準與技術研究院(NIST)負責校驗與發布。
- 用途:是語音識別、語音合成、語音轉錄及語音學研究的重要標準數據集,具有豐富的語音學信息和高質量標註。
- 限制:TIMIT資料集非免費公開,使用者需透過語言資料聯盟(Linguistic Data Consortium, LDC)購買授權取得。
簡言之,TIMIT 是一個設計精良且高度標註的美式英語語音資料庫,專為推動語音技術和聲學語音學研究而建,是評估和開發語音處理系統的重要基準資料集。