LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明:
- 資料規模與來源:
LibriSpeech 是一個包含約1000小時、取樣率為16kHz的英文朗讀語音語料庫。該資料集的音頻檔取自 LibriVox 項目中的公有領域有聲書,經過精細的切割與對齊處理。 - 資料特性:
LibriSpeech 提供的是「朗讀語音」,與日常對話錄音有所區別,因此語音質量普遍較高,噪聲較少。語料根據講者的識別性能被分為兩類: clean:質量較好,誤差率較低的語音片段,other:質量較差或語音較難辨識的片段。
- 主要用途:
- 自動語音識別模型的訓練與性能測試,
- 語者識別系統的訓練,
- 相關語音技術的研究與開發。
- 評估標準:
常用的評估標準為字錯誤率(WER, Word Error Rate),LibriSpeech 也擁有活躍的競賽排行榜,方便研究者比對模型效果。 - 技術背景:
LibriSpeech 由 Vassil Panayotov 與 Daniel Povey 等人整理,並且有針對該資料集設計的 Kaldi 語音識別腳本,方便快速搭建模型實驗。
此外,也有擴展的版本如「Spatial LibriSpeech」,用於空間音訊與聲源定位的研究,增加多通道音訊與模擬音響環境參數。
簡而言之,LibriSpeech 是語音識別領域重要且廣泛使用的英文朗讀語音資料集,具備規模大、品質高、標註齊全的特點,成為許多語音技術發展的基石。










