工具安裝

付費限定

【💎 語音辨識 — Whisper】雙聲道音訊處理與辨識

阿Han

發佈於💎 阿Han的Premium軟體技術棧

2023/08/12 更新2023/06/11 發佈閱讀 1 分鐘

假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。

怎麼做呢？比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離，再獨立的進行辨識即可。

這次會將雙聲道音檔透過pydub這套音訊處理工具進行分離，再分別以numpy.ndarray的格式傳遞給whisper進行辨識。

工具安裝

pytube: 下載yt影片並轉成音檔。
pydub: 將雙聲道切成左、右聲道。
openai-whisper: 語音辨識。

以行動支持創作者！付費即可解鎖

本篇內容共 3018 字、0 則留言，僅發佈於💎 阿Han的Premium軟體技術棧你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

#AI

#whisper

#語音辨識

阿Han的沙龍💎 阿Han的Premium軟體技術棧💎 精選AI

留言

阿Han的沙龍

155會員

332內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/04/16

【💎 語音合成技術 - GPT-SoVITS】如何調整中文發音？

精彩回顧【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務【語音合成技術 - GPT-SoVITS】如何架設API伺服器【語音合成技術 - GPT-SoVITS】如何微調模型建議先閱讀我們的【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務

2025/04/16

【💎 語音合成技術 - GPT-SoVITS】如何調整中文發音？

2023/07/21

【💎 語音辨識 - Whisper】準確與否需要有一把 📏尺來衡量辨識率

前面我們介紹了幾個關於Whisper的基本概念，這裡附上 🚀傳送門，歡迎好好閱讀一番，但我們除了學會如何用語音辨識的工具之外，「準確率」對我們來說也是一個非常重要的一環，但我們究竟應該要如何評估所謂的準確率呢？不知道沒關係，當您看完這個篇章就能夠學會如何計算文字的「字元錯誤率」、「字詞錯誤率」

2023/07/21

【💎 語音辨識 - Whisper】準確與否需要有一把 📏尺來衡量辨識率

2023/07/02

【💎 Prompt Engineering 提示工程基礎】挖坑給ChatGPT跳的越獄(Jailbreaking)法

正常來說這種大型LLM公司都會有內容審查功能，照理說不應該讓AI回答有害的、暴力的…等負面回應，以Chatgpt來說經實驗後確實是如此，但仍可以透過欺騙的方式讓它間接的回答，有一點挖坑給AI跳的概念…。好人形象的ChatGPT 非常聰明的閃避掉違法的問題，看來內部已經經過嚴格的審查過程，

2023/07/02

【💎 Prompt Engineering 提示工程基礎】挖坑給ChatGPT跳的越獄(Jailbreaking)法

看更多

你可能也想看

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

《轉轉生》（Re:INCARNATION）為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，結合拉各斯街頭節奏、Afrobeat／Afrobeats、以及約魯巴宇宙觀的非線性時間，建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發，解析其去殖民的身體政治。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

詹育杰的沙龍

《轉轉生 Re:INCARNATION》：Qudus Onikeku、約魯巴哲學與 Afrobeat 的去殖民身體政治

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

︾黑米BR的沙龍︽

讓 AI 模仿 Gura 唱強風大背頭 | AICover

筆者第一次嘗試 AI Cover 唱歌，僅是看了部 YouTube 簡易教學影片，所以稱不上是心得有成，但還是想分享給大家。

#人工智慧#AI#AICover

2023/07/18

︾黑米BR的沙龍︽

讓 AI 模仿 Gura 唱強風大背頭 | AICover

筆者第一次嘗試 AI Cover 唱歌，僅是看了部 YouTube 簡易教學影片，所以稱不上是心得有成，但還是想分享給大家。

#人工智慧#AI#AICover

2023/07/18

方晴君｜七神光

自己做動畫【配音】初體驗[下雪比心]

就因為昨天做那款［下雪比心］太喜歡，妞說沒有配音喔？然後想到我買的YOUCUT，裡面有錄音，就看了。嗯，只有五種聲音模式。男人／女人／小孩／怪獸／外星人。然後就迎來了我第一次的配音作品。 ———————————— 其實男女主的型大致上確定的差不多了.

2023/11/16

2023/11/16

小動作讓Podcast錄音品質更上一層樓｜Podcast製作教學

Podcast是完全依賴聲音作為媒介的媒體，聲音品質就是聽眾決定要不要繼續聽下去的關鍵，所有優秀的Podcast節目，都會對音質有一定的要求。要錄到好聲音，以現在價格相對親民的錄音器材來說，其實並不是那麼困難的事，只要挑選適合的錄音器材加上適合的空間就能錄到不錯的聲音

#Podcast教學#Podcast錄音技巧#Podcast新手入門

2021/10/02

哇沙米的沙龍

小動作讓Podcast錄音品質更上一層樓｜Podcast製作教學

#Podcast教學#Podcast錄音技巧#Podcast新手入門

2021/10/02

憶裳思思的沙龍

宅宅宅錄小教室4：看懂試音單

大家在網路上是否看過一些公開召募試音的公告呢？各家公告各有其格式，但有些基本訊息是少不了的，你是否被這些要求給搞暈了呢？大家好，我是一天試10個音都不嫌多的憶裳思思，今天就來教大家怎麼看懂試音單，如果你是邀請試音的單位，也可以參考一下今天的內容唷~ 如果你是一位配音員，聲音演員，參加試音前，最好

2023/03/23

2023/03/23

你為什麼不要降Key唱？至少音準不會跑太遠。 . 這是一條與音樂、聲音、文字息相關的通道。如果說，每個人跟外界都有相呼應的管道，那麼這條通道的靈感多半會以旋律話語或聽見聲音的方式，一瞬間，在腦海中閃過。這就能解釋為什麼具備這條通道的人，偏好文字和音樂，來做為與外界串連的傳達媒介。

2022/09/30

2022/09/30

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

這是一場修復文化與重建精神的儀式，觀眾不需要完全看懂《遊林驚夢：巧遇Hagay》，但你能感受心與土地團聚的渴望，也不急著在此處釐清或定義什麼，但你的在場感受，就是一條線索，關於如何找著自己的路徑、自己的聲音。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

釀電影，啜一口電影的美好。

性別之外，存在面前──淺談劇作《遊林驚夢：巧遇 Hagay》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/03/02

阿Han的沙龍

【💎 語音辨識 — Whisper】雙聲道音訊處理與辨識

假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。怎麼做呢？比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離，再獨立的進行辨識即可。這次會將雙聲道音檔透過pydub這套音訊處理工

#AI#whisper#語音辨識

2023/06/11

阿Han的沙龍

【💎 語音辨識 — Whisper】雙聲道音訊處理與辨識

#AI#whisper#語音辨識

2023/06/11

河西羊的養聲坊

聽力測驗~聽看看要多寬的頻率才能令人聽的懂語意!?

先測測”聽力”，到第幾個聲音才”聽懂”我在說什麼呢? (用耳機效果較好) https://www.youtube.com/watch?v=ZOFsYGenU30在公開班時我做這聽力測驗，經驗了卅餘期，四、五百位學員的測試，約90%的人都說是第三、四段時才聽清楚我在說什麼!以第四段音檔佔最多數。

2024/08/05

河西羊的養聲坊

聽力測驗~聽看看要多寬的頻率才能令人聽的懂語意!?

2024/08/05

若芽| Wakame

如何使用Audition CS6錄製並後製Podcast-以能墨Podcast為例Part.3

前一篇文章裡面我們提到了怎麼樣可以Audition視窗的長相，這一篇文章我想要來聊聊Podcast製作裡面最重要的兩個Part-剪輯跟降噪。這兩個部分可以說是聽眾聽感的最大重點，在不可能一錄到底以及錄音環境未必都是最高級的地方下，剪輯跟降噪都是非常必須的存在，想知道更多細節的話，就趕快來看看這篇文章

#Podcast#頻譜#噪音

2023/03/13

若芽| Wakame

如何使用Audition CS6錄製並後製Podcast-以能墨Podcast為例Part.3

#Podcast#頻譜#噪音

2023/03/13

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News