vocus logo

方格子 vocus

付費限定

【💎 語音辨識 — Whisper】 雙聲道音訊處理與辨識

更新 發佈閱讀 1 分鐘

假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。

怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。

這次會將雙聲道音檔透過pydub這套音訊處理工具進行分離,再分別以numpy.ndarray的格式傳遞給whisper進行辨識。

raw-image

工具安裝

  • pytube: 下載yt影片並轉成音檔。
  • pydub: 將雙聲道切成左、右聲道。
  • openai-whisper: 語音辨識。
以行動支持創作者!付費即可解鎖
本篇內容共 3018 字、0 則留言,僅發佈於💎 阿Han的Premium軟體技術棧你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
阿Han的沙龍
153會員
328內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/16
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
2025/04/16
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
Thumbnail
2023/07/21
前面我們介紹了幾個關於Whisper的基本概念,這裡附上 🚀傳送門 ,歡迎好好閱讀一番,但我們除了學會如何用語音辨識的工具之外,「準確率」對我們來說也是一個非常重要的一環,但我們究竟應該要如何評估所謂的準確率呢? 不知道沒關係,當您看完這個篇章就能夠學會如何計算文字的「字元錯誤率」、「字詞錯誤率」
Thumbnail
2023/07/21
前面我們介紹了幾個關於Whisper的基本概念,這裡附上 🚀傳送門 ,歡迎好好閱讀一番,但我們除了學會如何用語音辨識的工具之外,「準確率」對我們來說也是一個非常重要的一環,但我們究竟應該要如何評估所謂的準確率呢? 不知道沒關係,當您看完這個篇章就能夠學會如何計算文字的「字元錯誤率」、「字詞錯誤率」
Thumbnail
2023/07/02
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
Thumbnail
2023/07/02
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
Thumbnail
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
先測測”聽力”,到第幾個聲音才”聽懂”我在說什麼呢? (用耳機效果較好) https://www.youtube.com/watch?v=ZOFsYGenU30在公開班時我做這聽力測驗,經驗了卅餘期,四、五百位學員的測試,約90%的人都說是第三、四段時才聽清楚我在說什麼!以第四段音檔佔最多數。
Thumbnail
先測測”聽力”,到第幾個聲音才”聽懂”我在說什麼呢? (用耳機效果較好) https://www.youtube.com/watch?v=ZOFsYGenU30在公開班時我做這聽力測驗,經驗了卅餘期,四、五百位學員的測試,約90%的人都說是第三、四段時才聽清楚我在說什麼!以第四段音檔佔最多數。
Thumbnail
就因為昨天做那款[下雪比心]太喜歡, 妞說沒有配音喔? 然後想到我買的YOUCUT,裡面有錄音, 就看了。嗯,只有五種聲音模式。 男人/女人/小孩/怪獸/外星人。 然後就迎來了我第一次的配音作品。 ———————————— 其實男女主的型大致上確定的差不多了.
Thumbnail
就因為昨天做那款[下雪比心]太喜歡, 妞說沒有配音喔? 然後想到我買的YOUCUT,裡面有錄音, 就看了。嗯,只有五種聲音模式。 男人/女人/小孩/怪獸/外星人。 然後就迎來了我第一次的配音作品。 ———————————— 其實男女主的型大致上確定的差不多了.
Thumbnail
筆者第一次嘗試 AI Cover 唱歌,僅是看了部 YouTube 簡易教學影片,所以稱不上是心得有成,但還是想分享給大家。
Thumbnail
筆者第一次嘗試 AI Cover 唱歌,僅是看了部 YouTube 簡易教學影片,所以稱不上是心得有成,但還是想分享給大家。
Thumbnail
假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。 怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。 這次會將雙聲道音檔透過pydub這套音訊處理工
Thumbnail
假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。 怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。 這次會將雙聲道音檔透過pydub這套音訊處理工
Thumbnail
大家在網路上是否看過一些公開召募試音的公告呢?各家公告各有其格式, 但有些基本訊息是少不了的,你是否被這些要求給搞暈了呢? 大家好,我是一天試10個音都不嫌多的憶裳思思,今天就來教大家怎麼看懂試音單,如果你是邀請試音的單位,也可以參考一下今天的內容唷~ 如果你是一位配音員,聲音演員,參加試音前,最好
Thumbnail
大家在網路上是否看過一些公開召募試音的公告呢?各家公告各有其格式, 但有些基本訊息是少不了的,你是否被這些要求給搞暈了呢? 大家好,我是一天試10個音都不嫌多的憶裳思思,今天就來教大家怎麼看懂試音單,如果你是邀請試音的單位,也可以參考一下今天的內容唷~ 如果你是一位配音員,聲音演員,參加試音前,最好
Thumbnail
前一篇文章裡面我們提到了怎麼樣可以Audition視窗的長相,這一篇文章我想要來聊聊Podcast製作裡面最重要的兩個Part-剪輯跟降噪。這兩個部分可以說是聽眾聽感的最大重點,在不可能一錄到底以及錄音環境未必都是最高級的地方下,剪輯跟降噪都是非常必須的存在,想知道更多細節的話,就趕快來看看這篇文章
Thumbnail
前一篇文章裡面我們提到了怎麼樣可以Audition視窗的長相,這一篇文章我想要來聊聊Podcast製作裡面最重要的兩個Part-剪輯跟降噪。這兩個部分可以說是聽眾聽感的最大重點,在不可能一錄到底以及錄音環境未必都是最高級的地方下,剪輯跟降噪都是非常必須的存在,想知道更多細節的話,就趕快來看看這篇文章
Thumbnail
你為什麼不要降Key唱?至少音準不會跑太遠。 . 這是一條與音樂、聲音、文字息相關的通道。如果說,每個人跟外界都有相呼應的管道,那麼這條通道的靈感多半會以旋律話語或聽見聲音的方式,一瞬間,在腦海中閃過。這就能解釋為什麼具備這條通道的人,偏好文字和音樂,來做為與外界串連的傳達媒介。
Thumbnail
你為什麼不要降Key唱?至少音準不會跑太遠。 . 這是一條與音樂、聲音、文字息相關的通道。如果說,每個人跟外界都有相呼應的管道,那麼這條通道的靈感多半會以旋律話語或聽見聲音的方式,一瞬間,在腦海中閃過。這就能解釋為什麼具備這條通道的人,偏好文字和音樂,來做為與外界串連的傳達媒介。
Thumbnail
Podcast是完全依賴聲音作為媒介的媒體,聲音品質就是聽眾決定要不要繼續聽下去的關鍵,所有優秀的Podcast節目,都會對音質有一定的要求。 要錄到好聲音,以現在價格相對親民的錄音器材來說,其實並不是那麼困難的事,只要挑選適合的錄音器材加上適合的空間就能錄到不錯的聲音
Thumbnail
Podcast是完全依賴聲音作為媒介的媒體,聲音品質就是聽眾決定要不要繼續聽下去的關鍵,所有優秀的Podcast節目,都會對音質有一定的要求。 要錄到好聲音,以現在價格相對親民的錄音器材來說,其實並不是那麼困難的事,只要挑選適合的錄音器材加上適合的空間就能錄到不錯的聲音
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News