torchaudio
是 PyTorch 的官方音訊處理庫,提供了許多用於音訊數據讀取、轉換和處理的工具和功能。它旨在簡化音訊數據的加載、預處理和後續處理過程,同時與 PyTorch 緊密整合, 包括我們常常用於資料科學處理的Tensor資料。
這個篇章主要在分享我們如何使用標準的I/O進行讀檔, 並一包一包進行音訊解碼的過程。
我們在使用torchaudio的時候, 通常都是整個音檔進行載入, 如下:
waveform, sample_rate = torchaudio.load('xxx.wav')