免費開源的語音辨識功能:Google Colab + Whisper large v3

更新於 2024/01/17閱讀時間約 6 分鐘

本篇要解決的問題

以往一場會議、訪問、議程,如果需要逐字稿,都需要人類手打出來(August 接過這工作),自從 OpenAI 的 Whisper API 問世後,才知道語音辨識的工作也可以讓 AI 來執行。

原本 August 是有私下製作一頁,讓自己還有朋友使用,但因為接 API 是要 $$ 的,因此就沒在本站釋出。直到去年底 Whisper 推出了 Large V3 後,才知道,哎呀,原來是開源的耶!開源的意思就是,如果本機硬體夠強,可以把 model 載下來,直接在作本機作語音辨識,不用付費就能使用 Whisper API。

但因為 August 的電腦不夠強,而且也不想直接就在本機安裝 Python,在同事的分享下,才知道 Google 有一個 Colab 的功能,讓我們這種路人也可以在上面寫 Python,一定使用量下都是免費的,Google 的說明是:

Colab (全名為「Colaboratory」) 可讓你在瀏覽器中編寫及執行Python 程式碼,並具有以下優點:. 不必進行任何設定; 免付費使用GPU; 輕鬆共用.

既然有這麼好的工具,你各位還不刷起來~

本篇會示範怎麼使用 Google Colab + Whisper Large V3,來執行語音辨識。

更新:這幾天又發現了辨識速度更快,且更精準的 Faster Whisper,看完本篇後,請記得繼續閱讀〈免費開源的語音辨識功能:Google Colab + Faster Whisper〉。


Google Colab 設定為 GPU

其實這點也不用寫,但為了湊字數還是寫一下。

點擊 Colab 網址:https://colab.research.google.com/?hl=zh-tw,就會進入到 Colab 中,預設看到的畫面是這樣:

Google Colab 首頁

Google Colab 首頁

Colab 的檔案都會存到 Google 雲端硬碟上,點擊「新增記事本」,會看到以下畫面:

點擊執行階段

點擊執行階段

我們這一步是為了開啟 Colab 的 GPU,所以新增了記事本後,先點擊上方選單的「執行階段」->「變更執行階段類型」,在硬體加速器的選項上,就可以選擇 GPU:

硬體加速器改為 GPU

硬體加速器改為 GPU


使用 Whisper Large V3 功能

以下程式碼的程式語言是 Python,而且是簡單使用的版本。

首先,先安裝 Whisper:

!pip install git+https://github.com/openai/whisper.git

接著按下程式碼區塊,左邊有著播放 Icon 的按鈕,就會執行安裝:

按下執行儲存格

按下執行儲存格

執行完後,會看到很多的輸出訊息,點擊程式碼區塊那個垂直的 … 按鈕,再選擇「清除輸出內容」,就可以清掉:

清除輸出內容

清除輸出內容

剛剛的那行是安裝 Whisper,接下來點擊上面的「+程式碼」,在新增程式碼編輯區塊,貼上執行語音辨識的程式碼,如下:

import whisper
import os
from google.colab import files

# 載入模型
model = whisper.load_model("medium") # tiny, base, small, medium, large, large-v2, large-v3

# 設定檔案路徑
audio_path = "letswrite.mp3" # 替換成你的檔案名稱

# 處理音頻檔案,指定繁體中文
result = model.transcribe(audio_path, prompt="請轉錄以下繁體中文的內容:")

# 印出結果
print(result["text"])

# 獲取不帶副檔名的檔案名稱
file_name = os.path.splitext(os.path.basename(audio_path))[0]

# 將結果保存為txt檔案
with open(f"{file_name}.txt", "w") as file:
file.write(result["text"])
files.download(f"{file_name}.txt")

這段程式碼,包含了使用 Whisper 作語音辨識,以及辨識成文字後會自動下載為 .txt 的檔案。

看到這篇的各位,複製貼上程式碼後,要改的地方有 2 個。

載入模型

第 6 行的:

model = whisper.load_model("medium") 

參數量愈小,檔案就小,辨識速度也快,但是辨識的精準度就不高;反過來說,參數量愈大,檔案就愈大,辨識速度慢,但結果會更精準。

「English-only」如果有打勾,代表辨識英文的會比較精準,其它語系就沒這麼精準。

August 實際使用的結果,medium 的結果就很足夠了,而且比較會是繁體中文的版本。

large 辨識的結果會是最好的沒錯,但耗費的時間長很多,而且中文的部份很常會出現簡體中文。

要用哪個 model 來執行辨識,就看大家各自的需求。

檔案路徑

第 9 行,就是要選擇要辨識的檔案。

Google Colab 是 Google 的產品,所以可以直接使用 Google 雲端硬碟的檔案。

如果要使用雲端碟碟檔案,先點擊最左側那個資料夾的 Icon,再點擊有 Google 雲端硬碟 Icon 的按鈕,就會自動載入檔案進來:

使用雲端硬碟檔案

使用雲端硬碟檔案

這邊示範直接從電腦本機上傳檔案就好,就不用再另行提供授權,我們改點擊上傳檔案的 Icon:

點擊上傳本機檔案的按鈕

點擊上傳本機檔案的按鈕

選好本機檔案後,就會上傳上來。

選好檔案後,會看到一個提示訊息:

提示檔案是暫時性存在的

提示檔案是暫時性存在的

Google Colab 是一個免費工具,所以不會 24 小時無時無刻是 ON 的狀態,不然大家就會把它當免費主機來使用了。

所以當執行階段結束,所有傳上來的檔案都會被刪除。下次重新開啟檔案時,所有的程式碼也要重新執行。

上傳好檔案後,對著檔案點右鍵:

複製路徑

複製路徑

點擊「複製路徑」,再貼到第 9 行的 audio_path,Colab 就會知道要辨識的檔案是哪一個。

執行辨識

選好了 model,更新了檔案路徑,一樣點擊左側播放樣式的 Icon,Colab 就會執行程式碼,讓 Whisper 幫我們辨識我們的檔案。

辨識結果如下圖:

辨識結果

辨識結果

第一步會先載入指定的 model,接著執行辨識。

辨識完後,也會自動下載一份結果的 .txt 檔案。

語音辨識是不會加上標點符號、分段的,需要的話,就是複製結果文字後,丟給 ChatGPT 去加標點、改錯字、分段囉。

以上,就是本篇開源、免費的語音辨識功能。






avatar-img
9會員
19內容數
沙龍到底是…做什麼用的勒?
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
Let's Write 的沙龍 的其他內容
透過 Web Workers,您可以將這些耗時的操作放在另一個執行緒中處理,減輕主執行緒的負擔,提高網站的效能和響應速度。這篇文章提供了詳細的解釋和示例,幫助您快速上手使用 Web Workers。不要錯過這個可以改善網站效能的實用技巧!
本篇介紹了一個名為 DOMPurify 的套件,它可以增加網站對 XSS 攻擊的防護力。DOMPurify 可以幫助開發人員過濾和清除不受信任的輸入,以防止 XSS 攻擊。本文提供了 DOMPurify 的安裝和使用方法,並提供了一個範例 Demo 供參考。
本篇大綱:本篇要解決的問題。用 Docker 安裝 Verdaccio。上傳 package。使用 package。刪除 package。修改 config.yml。改變 CSS。
本篇大綱:本篇要解決的問題。取得 Postman Collection Access Key。Google Apps Script 上寫備份程式碼。設定自動備份。
這篇文章教你如何在本機使用 Gitea 架設 Git Server。內容涵蓋了安裝 Docker、設定和安裝 Gitea 的 dokcer-compose.yml、Gitea 的安裝流程,以及如何刪除安裝的 Gitea。文章也包含了一個 Docker 的彩蛋,教你如何清理安裝或未清理的緩存。
深入了解使用 Cookie 實現客戶端數據存儲的技巧和最佳實踐。本文詳細解釋了 Cookie 的基本概念、限制、原生寫法,並推薦了一個實用的 JavaScript Cookie 套件,附帶實用 Demo 和原始碼。
透過 Web Workers,您可以將這些耗時的操作放在另一個執行緒中處理,減輕主執行緒的負擔,提高網站的效能和響應速度。這篇文章提供了詳細的解釋和示例,幫助您快速上手使用 Web Workers。不要錯過這個可以改善網站效能的實用技巧!
本篇介紹了一個名為 DOMPurify 的套件,它可以增加網站對 XSS 攻擊的防護力。DOMPurify 可以幫助開發人員過濾和清除不受信任的輸入,以防止 XSS 攻擊。本文提供了 DOMPurify 的安裝和使用方法,並提供了一個範例 Demo 供參考。
本篇大綱:本篇要解決的問題。用 Docker 安裝 Verdaccio。上傳 package。使用 package。刪除 package。修改 config.yml。改變 CSS。
本篇大綱:本篇要解決的問題。取得 Postman Collection Access Key。Google Apps Script 上寫備份程式碼。設定自動備份。
這篇文章教你如何在本機使用 Gitea 架設 Git Server。內容涵蓋了安裝 Docker、設定和安裝 Gitea 的 dokcer-compose.yml、Gitea 的安裝流程,以及如何刪除安裝的 Gitea。文章也包含了一個 Docker 的彩蛋,教你如何清理安裝或未清理的緩存。
深入了解使用 Cookie 實現客戶端數據存儲的技巧和最佳實踐。本文詳細解釋了 Cookie 的基本概念、限制、原生寫法,並推薦了一個實用的 JavaScript Cookie 套件,附帶實用 Demo 和原始碼。
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
傳送們 介紹:什麼是 WebGal? Webgal 是一個簡單而功能齊全的視覺小說製作器,讓你可以在不用任何代碼的情況下做出一款 ACG 遊戲 除了提供各種你會需要的功能外還搭配了相當用戶友好的使用介面讓就算
Thumbnail
用不慣 Wordpress 嗎? 還在找免費開源的WP替代嗎? 那就不要錯過這篇關於 Publii 的介紹! 就算你不會寫程式也對代碼一竅不通,也能夠透過Publii來自己架設一個屬於自己的網站! 而且重點是完全免費! 
Thumbnail
n8n 提供近 400 種常見應用程式的串接,並具備友善的 UI 介面和彈性設定、高度彈性能夠自行建構、疊加程式碼,打破現有模組的限制,實現更多可能性。也提供開源免費版本,讓你在自己主機上建置自動化系統,無限制地創建流程。不論你是初學者還是有技術背景的使用者,n8n 給予更多彈性自由來提高工作效率。
Thumbnail
可轉債是一種具有保本和股權轉換的債券產品,適合在股市波動大時作為避險或獲利的工具。台灣的可轉債市場規模不斷擴大,截至2022年12月底,上櫃可轉債發行總額達到1.9兆元,發行家數達到217家。可轉債的投資者需要關注可轉債的價格、溢價率、轉換價格、轉換比率、到期日、利率等重要資訊
Thumbnail
你是否曾因視訊開會沒人發言而感到困擾,又或是想要同時可以共享兩個以上的螢幕?不管是 EP0.2 提過的 Zoom、Webex,抑或微軟的 Teams 和谷歌的 Meet 皆為付費軟體,均需綁定帳號及一連串設定;而本篇文章要帶你了解的是毋須註冊、用電腦也不用下載軟體的免費工具 Jitsi Meet。
Thumbnail
开源笔记软件列表 笔记产品那么多,为什么要使用开源笔记软件? 开源笔记软件的优点和缺 优点 免费使用; 可扩展性强,满足用户的个性化需求; 数据更加安全,不用担心开发者突然跑路; 缺点 用户最好具备一定的技术,有些功能的使用可能需要用户自己配置; 开源笔记软件多数不太好看; 介绍 📷 优点 缺点
Thumbnail
Joplin 介绍 绝大部分开源工具都是免费的。如果寻找免费的笔记应用,自然需要考虑开源笔记软件。 优点 重视用户隐私,重视数据安全。支持端到端加密。 数据迁移方便。作为一款开源笔记软件,Joplin 不会锁死你的笔记数据,提供了多种多样地导入和导出功能。 免费。这是开源软件的另一特色。 缺点
Thumbnail
手写笔记软件:Notability/GoodNotes Notability 介绍 苹果生态最为著名的手写软件。 📷 功能 导入:支持 pdf、 DOCs、 ppt、图片、 gif 导入; 自由输入:可以在任何地方输入,支持字体样式、大小等个性化排版; 手写体验:灵敏、精确、优雅; 评价 介绍
Thumbnail
本文會先介紹Godot這個遊戲引擎的特色,並列舉幾個以Godot開發的遊戲/引擎/其他程式,最後推薦給想學習Godot的人一些入門教學和網站。
Thumbnail
在股市正熱的時候,要怎麼不追高、不承擔高風險的尋找到好投資標的,是投資者最重要的一件事之一。 這本書以質化分析的價值投資法為主,幫助你挖掘基本面好的低風險、低本益比的好股票,讓你投資安穩且不需要擔心追高被套牢!
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
傳送們 介紹:什麼是 WebGal? Webgal 是一個簡單而功能齊全的視覺小說製作器,讓你可以在不用任何代碼的情況下做出一款 ACG 遊戲 除了提供各種你會需要的功能外還搭配了相當用戶友好的使用介面讓就算
Thumbnail
用不慣 Wordpress 嗎? 還在找免費開源的WP替代嗎? 那就不要錯過這篇關於 Publii 的介紹! 就算你不會寫程式也對代碼一竅不通,也能夠透過Publii來自己架設一個屬於自己的網站! 而且重點是完全免費! 
Thumbnail
n8n 提供近 400 種常見應用程式的串接,並具備友善的 UI 介面和彈性設定、高度彈性能夠自行建構、疊加程式碼,打破現有模組的限制,實現更多可能性。也提供開源免費版本,讓你在自己主機上建置自動化系統,無限制地創建流程。不論你是初學者還是有技術背景的使用者,n8n 給予更多彈性自由來提高工作效率。
Thumbnail
可轉債是一種具有保本和股權轉換的債券產品,適合在股市波動大時作為避險或獲利的工具。台灣的可轉債市場規模不斷擴大,截至2022年12月底,上櫃可轉債發行總額達到1.9兆元,發行家數達到217家。可轉債的投資者需要關注可轉債的價格、溢價率、轉換價格、轉換比率、到期日、利率等重要資訊
Thumbnail
你是否曾因視訊開會沒人發言而感到困擾,又或是想要同時可以共享兩個以上的螢幕?不管是 EP0.2 提過的 Zoom、Webex,抑或微軟的 Teams 和谷歌的 Meet 皆為付費軟體,均需綁定帳號及一連串設定;而本篇文章要帶你了解的是毋須註冊、用電腦也不用下載軟體的免費工具 Jitsi Meet。
Thumbnail
开源笔记软件列表 笔记产品那么多,为什么要使用开源笔记软件? 开源笔记软件的优点和缺 优点 免费使用; 可扩展性强,满足用户的个性化需求; 数据更加安全,不用担心开发者突然跑路; 缺点 用户最好具备一定的技术,有些功能的使用可能需要用户自己配置; 开源笔记软件多数不太好看; 介绍 📷 优点 缺点
Thumbnail
Joplin 介绍 绝大部分开源工具都是免费的。如果寻找免费的笔记应用,自然需要考虑开源笔记软件。 优点 重视用户隐私,重视数据安全。支持端到端加密。 数据迁移方便。作为一款开源笔记软件,Joplin 不会锁死你的笔记数据,提供了多种多样地导入和导出功能。 免费。这是开源软件的另一特色。 缺点
Thumbnail
手写笔记软件:Notability/GoodNotes Notability 介绍 苹果生态最为著名的手写软件。 📷 功能 导入:支持 pdf、 DOCs、 ppt、图片、 gif 导入; 自由输入:可以在任何地方输入,支持字体样式、大小等个性化排版; 手写体验:灵敏、精确、优雅; 评价 介绍
Thumbnail
本文會先介紹Godot這個遊戲引擎的特色,並列舉幾個以Godot開發的遊戲/引擎/其他程式,最後推薦給想學習Godot的人一些入門教學和網站。
Thumbnail
在股市正熱的時候,要怎麼不追高、不承擔高風險的尋找到好投資標的,是投資者最重要的一件事之一。 這本書以質化分析的價值投資法為主,幫助你挖掘基本面好的低風險、低本益比的好股票,讓你投資安穩且不需要擔心追高被套牢!