付費限定

【💎 語音辨識 — Whisper】雙聲道音訊處理與辨識

阿Han

發佈於💎 阿Han的Premium軟體技術棧

更新於 2023/08/12發佈於 2023/06/11閱讀時間約 7 分鐘

假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。

怎麼做呢？比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離，再獨立的進行辨識即可。

這次會將雙聲道音檔透過pydub這套音訊處理工具進行分離，再分別以numpy.ndarray的格式傳遞給whisper進行辨識。

圖片來源

工具安裝

pytube: 下載yt影片並轉成音檔。
pydub: 將雙聲道切成左、右聲道。
openai-whisper: 語音辨識。

以行動支持創作者！付費即可解鎖

本篇內容共 3018 字、0 則留言，僅發佈於💎 阿Han的Premium軟體技術棧你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#AI

#whisper

#語音辨識

阿Han的沙龍💎 阿Han的Premium軟體技術棧💎 精選AI

阿Han的沙龍

123會員

272內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

留言

留言分享你的想法！

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

‌

‌
‌

阿Han的沙龍的其他內容

【自然語言處理 — 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧

詞跟詞之間的距離有多近呢？如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起，某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計，而這些詞在這批資料集之中所佔的位置依照距離都能夠

#NLP #AI #word2vec

【自然語言處理 — 概念篇】最基礎的Bag-of-Words模型是什麼呢？

常常我們在進行NLP討論時，不管哪一種NLP任務都會偶爾聽到BOW這個詞，原來全名就是「Bag-of-words」由名稱就可以知道這是在處理NLP任務之前的基礎工事，將一整篇文章切碎成一段語句，甚至是最小單位的「詞」，而這些詞又如何表述關係或者進一步的使用，試圖讓機器可以理解我們人類的詞語，就是基於

#AI #python #NLP

【AI幫幫忙】機器如何識別我們的特徵？關鍵的Named Entity Recognition（NER）技術

Named Entity Recognition（NER）是一種自然語言處理技術，它的目的是識別文本中的具有特定意義的實體（也稱為命名實體）。這些命名實體可以是人名、地名、組織名、日期、時間、數量等等。這項技術可以幫助機器更好地理解文本，提高自然語言處理的精度和效率，也可以用於許多應用場景，例如搜

#AI #NLP

【Google Colab Python系列】OpenAI Whisper: 語音辨識產生字幕檔

上一篇「【Google Colab Python系列】初探Whisper: 來對一段Youtube影片進行辨識吧！」我們介紹了Whisper的基本用法及功能，這次我們除了語音辨識之外，還要下載辨識後的字幕檔，我想這對於我們常常看到沒有字幕的影片，若想要進行辨識與翻譯時非常有幫助。這次的篇章主要做

#OpenAI #whisper #語音辨識

【Google Colab Python系列】初探Whisper: 來一段Youtube影片進行語音辨識吧！

這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式，並簡單的對Youtube影片進行線上翻譯的工作，主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜，就讓我們一起來玩玩看吧！在這之前我們還是說一下Whisper它是什麼樣的一個工具，能夠做什麼？ Whisper 是OpenAI

#whisper #AI #語音辨識

【自然語言處理 — 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧

#NLP #AI #word2vec