LibriSpeech

更新 發佈閱讀 2 分鐘

LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明:

  • 資料規模與來源
    LibriSpeech 是一個包含約1000小時、取樣率為16kHz的英文朗讀語音語料庫。該資料集的音頻檔取自 LibriVox 項目中的公有領域有聲書,經過精細的切割與對齊處理。
  • 資料特性
    LibriSpeech 提供的是「朗讀語音」,與日常對話錄音有所區別,因此語音質量普遍較高,噪聲較少。語料根據講者的識別性能被分為兩類:
    • clean:質量較好,誤差率較低的語音片段,
    • other:質量較差或語音較難辨識的片段。
  • 主要用途
    • 自動語音識別模型的訓練與性能測試,
    • 語者識別系統的訓練,
    • 相關語音技術的研究與開發。
  • 評估標準
    常用的評估標準為字錯誤率(WER, Word Error Rate),LibriSpeech 也擁有活躍的競賽排行榜,方便研究者比對模型效果。
  • 技術背景
    LibriSpeech 由 Vassil Panayotov 與 Daniel Povey 等人整理,並且有針對該資料集設計的 Kaldi 語音識別腳本,方便快速搭建模型實驗。

此外,也有擴展的版本如「Spatial LibriSpeech」,用於空間音訊與聲源定位的研究,增加多通道音訊與模擬音響環境參數。

簡而言之,LibriSpeech 是語音識別領域重要且廣泛使用的英文朗讀語音資料集,具備規模大、品質高、標註齊全的特點,成為許多語音技術發展的基石。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
30會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
2025/08/14
MNIST(Modified National Institute of Standards and Technology)是一個非常經典且廣泛使用的手寫數字影像資料集,常被用來作為機器學習和深度學習模型在影像分類任務中的訓練與評估標準。 以下是 MNIST 的主要特點: 資料規模:包含60,0
2025/08/14
MNIST(Modified National Institute of Standards and Technology)是一個非常經典且廣泛使用的手寫數字影像資料集,常被用來作為機器學習和深度學習模型在影像分類任務中的訓練與評估標準。 以下是 MNIST 的主要特點: 資料規模:包含60,0
2025/08/14
GSM8K(Grade School Math 8K)是一個用來評估大型語言模型在數學推理能力方面的經典基準數據集。它包含約8,500個由專業人員創建的、涵蓋多步驟推理的小學生數學語言題目,這些題目語言多樣且設計用於測試模型對基礎數學問題的理解與解答能力。 主要特點包括: 題目數量與結構:共有約
2025/08/14
GSM8K(Grade School Math 8K)是一個用來評估大型語言模型在數學推理能力方面的經典基準數據集。它包含約8,500個由專業人員創建的、涵蓋多步驟推理的小學生數學語言題目,這些題目語言多樣且設計用於測試模型對基礎數學問題的理解與解答能力。 主要特點包括: 題目數量與結構:共有約
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
本文主要使用SpeechRecognition來做一個簡單的語音辨識,使用pyqt5介面呈現。 按下Start Recording,開始錄音,並顯示請開始說話。然後按鈕名改名Stop 在按下Stop Recording,稍等片刻後就會呈現出辨識結果​ 程式範例 import sys i
Thumbnail
本文主要使用SpeechRecognition來做一個簡單的語音辨識,使用pyqt5介面呈現。 按下Start Recording,開始錄音,並顯示請開始說話。然後按鈕名改名Stop 在按下Stop Recording,稍等片刻後就會呈現出辨識結果​ 程式範例 import sys i
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News