免費開源的語音辨識功能:Google Colab + Faster Whisper

更新於 2024/01/17閱讀時間約 6 分鐘

本篇要解決的問題

上一篇,我們用了 Google Colab,加上 OpenAI 的 Whisper,製作出了一個語音辨識功能,結果筆記文寫完沒過幾天,就看到有人改良了 Whisper,製作出了 Faster Whisper,辨識速度更快也更精準。

一開始研究時,因為是改到 Google Colab,所以跟著官方說明文件一直失敗,後來是爬了一下文後才找到解法。

確實,Faster Whisper 真的更快更準,測試了一個 70 分鐘的音檔,原本 OpenAI Whisper 要 14 分鐘,換用 Faster Whisper 後,只需要 7 分鐘。

不得不說,現在語音辨識模型已經到這程度,到年底時不知道又會有什麼樣子的進步。

Google Colab 的使用方式,在前一篇幾乎都寫到了,本篇不會再重寫,請先閱讀上一篇筆記文囉:

免費開源的語音辨識功能:Google Colab + Whisper large v3


安裝 Faster Whisper

官方說明文件:GitHub

文件一開始有說,要使用 GPU,要先安裝 NVIDIA 函式庫,一開始就是卡在這邊卡很久,因為找不到 Colab 的安裝方式。

後來爬了一下文後,才找到只要安裝「libcublas11」就可以了。

安裝 Faster Whisper 的二行程式碼如下:

!apt install libcublas11
!pip install faster-whisper

複製貼上二行程式碼,點擊執行後就會進行安裝。


使用 Faster Whisper

這篇來點跟前一篇不一樣的,因為官方提供的 Demo,產出的內容會加上時間軸,所以這邊 August 也試著做出三種格:一般、時間軸、字幕檔。

完整程式碼如下,可以直接貼上 Colab:

from faster_whisper import WhisperModel
import os
from google.colab import files

model_size = "large-v2" # tiny, base, small, medium, large, large-v2, large-v3
mode = "normal" # normal 一般, timeline 加入時間軸, subtitle 產生成字幕檔格式

# Run on GPU with FP16
model = WhisperModel(model_size, device="cuda", compute_type="float16")

# 設定檔案路徑
audio_path = "/content/letswrite.mp3" # 替換成你的檔案名稱

segments, info = model.transcribe(audio_path, beam_size=5, initial_prompt="繁體")

transcription = ""

# 1 以下為一般版本
if mode == "normal":
transcription_segments = [segment.text for segment in segments]
transcription = ",".join(transcription_segments)

# 2 以下為加入時間軸版本
elif mode == "timeline":
for segment in segments:
transcription += "[%.2fs -> %.2fs] %sn" % (segment.start, segment.end, segment.text)

# 3 以下為產生字幕檔的版本
elif mode == "subtitle":
for i, segment in enumerate(segments, 1):
start_hours, start_remainder = divmod(segment.start, 3600)
start_minutes, start_seconds = divmod(start_remainder, 60)
end_hours, end_remainder = divmod(segment.end, 3600)
end_minutes, end_seconds = divmod(end_remainder, 60)
transcription += "%dn%02d:%02d:%06.3f --> %02d:%02d:%06.3fn%snn" % (
i,
start_hours, start_minutes, start_seconds,
end_hours, end_minutes, end_seconds,
segment.text
)

print(transcription)

# 獲取不帶副檔名的檔案名稱
file_name = os.path.splitext(os.path.basename(audio_path))[0]

# 將結果保存為txt檔案
with open(f"{file_name}.txt", "w") as file:
file.write(transcription)
files.download(f"{file_name}.txt")

貼上後,要修改的部份有三個。

model_size

這邊要寫的是,想要用哪種 model 來進行辨識。

目前 OpenAI 提供的 Whisper API 是 Large-V2,也確實 V2 就很好用了。

如果改用最新的 Large-V3,辨識時間會再久一點。

mode

mode 就是要產出什麼格式的檔案,分為:

  • normal:一般的格式,單純加上逗號去區分每一句。
  • timeline:加入時間軸。
  • subtitle:產生成字幕檔格式。

audio_path

audio_path 就是填寫要辨識的音檔路徑。

最後,附上完整的 Google Colab


結論

這篇算是上一篇的…外傳?就是一個補充寫法。

網路上如果搜尋一下 Google Golab Faster Whisper,就還蠻多人有做出厲害的範例。

這篇就分享給需要的棒油囉~

avatar-img
9會員
19內容數
沙龍到底是…做什麼用的勒?
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Let's Write 的沙龍 的其他內容
本篇筆記了如何使用Google Colab和OpenAI的Whisper Large V3進行免費且開源的語音辨識。涵蓋從基礎設定到實際運用的步驟,適合初學者和技術愛好者輕鬆學習語音辨識技術。
透過 Web Workers,您可以將這些耗時的操作放在另一個執行緒中處理,減輕主執行緒的負擔,提高網站的效能和響應速度。這篇文章提供了詳細的解釋和示例,幫助您快速上手使用 Web Workers。不要錯過這個可以改善網站效能的實用技巧!
本篇介紹了一個名為 DOMPurify 的套件,它可以增加網站對 XSS 攻擊的防護力。DOMPurify 可以幫助開發人員過濾和清除不受信任的輸入,以防止 XSS 攻擊。本文提供了 DOMPurify 的安裝和使用方法,並提供了一個範例 Demo 供參考。
本篇大綱:本篇要解決的問題。用 Docker 安裝 Verdaccio。上傳 package。使用 package。刪除 package。修改 config.yml。改變 CSS。
本篇大綱:本篇要解決的問題。取得 Postman Collection Access Key。Google Apps Script 上寫備份程式碼。設定自動備份。
這篇文章教你如何在本機使用 Gitea 架設 Git Server。內容涵蓋了安裝 Docker、設定和安裝 Gitea 的 dokcer-compose.yml、Gitea 的安裝流程,以及如何刪除安裝的 Gitea。文章也包含了一個 Docker 的彩蛋,教你如何清理安裝或未清理的緩存。
本篇筆記了如何使用Google Colab和OpenAI的Whisper Large V3進行免費且開源的語音辨識。涵蓋從基礎設定到實際運用的步驟,適合初學者和技術愛好者輕鬆學習語音辨識技術。
透過 Web Workers,您可以將這些耗時的操作放在另一個執行緒中處理,減輕主執行緒的負擔,提高網站的效能和響應速度。這篇文章提供了詳細的解釋和示例,幫助您快速上手使用 Web Workers。不要錯過這個可以改善網站效能的實用技巧!
本篇介紹了一個名為 DOMPurify 的套件,它可以增加網站對 XSS 攻擊的防護力。DOMPurify 可以幫助開發人員過濾和清除不受信任的輸入,以防止 XSS 攻擊。本文提供了 DOMPurify 的安裝和使用方法,並提供了一個範例 Demo 供參考。
本篇大綱:本篇要解決的問題。用 Docker 安裝 Verdaccio。上傳 package。使用 package。刪除 package。修改 config.yml。改變 CSS。
本篇大綱:本篇要解決的問題。取得 Postman Collection Access Key。Google Apps Script 上寫備份程式碼。設定自動備份。
這篇文章教你如何在本機使用 Gitea 架設 Git Server。內容涵蓋了安裝 Docker、設定和安裝 Gitea 的 dokcer-compose.yml、Gitea 的安裝流程,以及如何刪除安裝的 Gitea。文章也包含了一個 Docker 的彩蛋,教你如何清理安裝或未清理的緩存。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
傳送們 介紹:什麼是 WebGal? Webgal 是一個簡單而功能齊全的視覺小說製作器,讓你可以在不用任何代碼的情況下做出一款 ACG 遊戲 除了提供各種你會需要的功能外還搭配了相當用戶友好的使用介面讓就算
Thumbnail
用不慣 Wordpress 嗎? 還在找免費開源的WP替代嗎? 那就不要錯過這篇關於 Publii 的介紹! 就算你不會寫程式也對代碼一竅不通,也能夠透過Publii來自己架設一個屬於自己的網站! 而且重點是完全免費! 
Thumbnail
n8n 提供近 400 種常見應用程式的串接,並具備友善的 UI 介面和彈性設定、高度彈性能夠自行建構、疊加程式碼,打破現有模組的限制,實現更多可能性。也提供開源免費版本,讓你在自己主機上建置自動化系統,無限制地創建流程。不論你是初學者還是有技術背景的使用者,n8n 給予更多彈性自由來提高工作效率。
Thumbnail
可轉債是一種具有保本和股權轉換的債券產品,適合在股市波動大時作為避險或獲利的工具。台灣的可轉債市場規模不斷擴大,截至2022年12月底,上櫃可轉債發行總額達到1.9兆元,發行家數達到217家。可轉債的投資者需要關注可轉債的價格、溢價率、轉換價格、轉換比率、到期日、利率等重要資訊
Thumbnail
你是否曾因視訊開會沒人發言而感到困擾,又或是想要同時可以共享兩個以上的螢幕?不管是 EP0.2 提過的 Zoom、Webex,抑或微軟的 Teams 和谷歌的 Meet 皆為付費軟體,均需綁定帳號及一連串設定;而本篇文章要帶你了解的是毋須註冊、用電腦也不用下載軟體的免費工具 Jitsi Meet。
Thumbnail
开源笔记软件列表 笔记产品那么多,为什么要使用开源笔记软件? 开源笔记软件的优点和缺 优点 免费使用; 可扩展性强,满足用户的个性化需求; 数据更加安全,不用担心开发者突然跑路; 缺点 用户最好具备一定的技术,有些功能的使用可能需要用户自己配置; 开源笔记软件多数不太好看; 介绍 📷 优点 缺点
Thumbnail
Joplin 介绍 绝大部分开源工具都是免费的。如果寻找免费的笔记应用,自然需要考虑开源笔记软件。 优点 重视用户隐私,重视数据安全。支持端到端加密。 数据迁移方便。作为一款开源笔记软件,Joplin 不会锁死你的笔记数据,提供了多种多样地导入和导出功能。 免费。这是开源软件的另一特色。 缺点
Thumbnail
手写笔记软件:Notability/GoodNotes Notability 介绍 苹果生态最为著名的手写软件。 📷 功能 导入:支持 pdf、 DOCs、 ppt、图片、 gif 导入; 自由输入:可以在任何地方输入,支持字体样式、大小等个性化排版; 手写体验:灵敏、精确、优雅; 评价 介绍
Thumbnail
本文會先介紹Godot這個遊戲引擎的特色,並列舉幾個以Godot開發的遊戲/引擎/其他程式,最後推薦給想學習Godot的人一些入門教學和網站。
Thumbnail
在股市正熱的時候,要怎麼不追高、不承擔高風險的尋找到好投資標的,是投資者最重要的一件事之一。 這本書以質化分析的價值投資法為主,幫助你挖掘基本面好的低風險、低本益比的好股票,讓你投資安穩且不需要擔心追高被套牢!
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
傳送們 介紹:什麼是 WebGal? Webgal 是一個簡單而功能齊全的視覺小說製作器,讓你可以在不用任何代碼的情況下做出一款 ACG 遊戲 除了提供各種你會需要的功能外還搭配了相當用戶友好的使用介面讓就算
Thumbnail
用不慣 Wordpress 嗎? 還在找免費開源的WP替代嗎? 那就不要錯過這篇關於 Publii 的介紹! 就算你不會寫程式也對代碼一竅不通,也能夠透過Publii來自己架設一個屬於自己的網站! 而且重點是完全免費! 
Thumbnail
n8n 提供近 400 種常見應用程式的串接,並具備友善的 UI 介面和彈性設定、高度彈性能夠自行建構、疊加程式碼,打破現有模組的限制,實現更多可能性。也提供開源免費版本,讓你在自己主機上建置自動化系統,無限制地創建流程。不論你是初學者還是有技術背景的使用者,n8n 給予更多彈性自由來提高工作效率。
Thumbnail
可轉債是一種具有保本和股權轉換的債券產品,適合在股市波動大時作為避險或獲利的工具。台灣的可轉債市場規模不斷擴大,截至2022年12月底,上櫃可轉債發行總額達到1.9兆元,發行家數達到217家。可轉債的投資者需要關注可轉債的價格、溢價率、轉換價格、轉換比率、到期日、利率等重要資訊
Thumbnail
你是否曾因視訊開會沒人發言而感到困擾,又或是想要同時可以共享兩個以上的螢幕?不管是 EP0.2 提過的 Zoom、Webex,抑或微軟的 Teams 和谷歌的 Meet 皆為付費軟體,均需綁定帳號及一連串設定;而本篇文章要帶你了解的是毋須註冊、用電腦也不用下載軟體的免費工具 Jitsi Meet。
Thumbnail
开源笔记软件列表 笔记产品那么多,为什么要使用开源笔记软件? 开源笔记软件的优点和缺 优点 免费使用; 可扩展性强,满足用户的个性化需求; 数据更加安全,不用担心开发者突然跑路; 缺点 用户最好具备一定的技术,有些功能的使用可能需要用户自己配置; 开源笔记软件多数不太好看; 介绍 📷 优点 缺点
Thumbnail
Joplin 介绍 绝大部分开源工具都是免费的。如果寻找免费的笔记应用,自然需要考虑开源笔记软件。 优点 重视用户隐私,重视数据安全。支持端到端加密。 数据迁移方便。作为一款开源笔记软件,Joplin 不会锁死你的笔记数据,提供了多种多样地导入和导出功能。 免费。这是开源软件的另一特色。 缺点
Thumbnail
手写笔记软件:Notability/GoodNotes Notability 介绍 苹果生态最为著名的手写软件。 📷 功能 导入:支持 pdf、 DOCs、 ppt、图片、 gif 导入; 自由输入:可以在任何地方输入,支持字体样式、大小等个性化排版; 手写体验:灵敏、精确、优雅; 评价 介绍
Thumbnail
本文會先介紹Godot這個遊戲引擎的特色,並列舉幾個以Godot開發的遊戲/引擎/其他程式,最後推薦給想學習Godot的人一些入門教學和網站。
Thumbnail
在股市正熱的時候,要怎麼不追高、不承擔高風險的尋找到好投資標的,是投資者最重要的一件事之一。 這本書以質化分析的價值投資法為主,幫助你挖掘基本面好的低風險、低本益比的好股票,讓你投資安穩且不需要擔心追高被套牢!