付費限定【💎 語音辨識 — Whisper】 雙聲道音訊處理與辨識
付費限定

【💎 語音辨識 — Whisper】 雙聲道音訊處理與辨識

更新於 發佈於 閱讀時間約 1 分鐘

假設我們有一段雙聲道的音檔, 正常來說透過whisper進行語音辨識時都是以整段音檔進行辨識,但我們若想將左右聲道分離進行辨識的話就得對音檔進行音訊處理了。

怎麼做呢? 比較簡單的方式就是透過音訊處理工具將音檔進行左右聲道的分離,再獨立的進行辨識即可。

這次會將雙聲道音檔透過pydub這套音訊處理工具進行分離,再分別以numpy.ndarray的格式傳遞給whisper進行辨識。

圖片來源

工具安裝

以行動支持創作者!付費即可解鎖
本篇內容共 3018 字、0 則留言,僅發佈於💎 阿Han的Premium軟體技術棧你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
avatar-img
阿Han的沙龍
127會員
281內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言
avatar-img
留言分享你的想法!
阿Han的沙龍 的其他內容
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
前面我們介紹了幾個關於Whisper的基本概念,這裡附上 🚀傳送門 ,歡迎好好閱讀一番,但我們除了學會如何用語音辨識的工具之外,「準確率」對我們來說也是一個非常重要的一環,但我們究竟應該要如何評估所謂的準確率呢? 不知道沒關係,當您看完這個篇章就能夠學會如何計算文字的「字元錯誤率」、「字詞錯誤率」
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,
精彩回顧 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務 【語音合成技術 - GPT-SoVITS】如何架設API伺服器 【語音合成技術 - GPT-SoVITS】如何微調模型 建議先閱讀我們的 【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務
前面我們介紹了幾個關於Whisper的基本概念,這裡附上 🚀傳送門 ,歡迎好好閱讀一番,但我們除了學會如何用語音辨識的工具之外,「準確率」對我們來說也是一個非常重要的一環,但我們究竟應該要如何評估所謂的準確率呢? 不知道沒關係,當您看完這個篇章就能夠學會如何計算文字的「字元錯誤率」、「字詞錯誤率」
正常來說這種大型LLM公司都會有內容審查功能, 照理說不應該讓AI回答有害的、暴力的…等負面回應, 以Chatgpt來說經實驗後確實是如此, 但仍可以透過欺騙的方式讓它間接的回答, 有一點挖坑給AI跳的概念…。 好人形象的ChatGPT 非常聰明的閃避掉違法的問題, 看來內部已經經過嚴格的審查過程,