早上九點多,剛到公司開在路上開完早會,手機螢幕突然亮起,是女友傳來的訊息:「救命啊!我們老闆要我做昨天下班前會議的逐字稿,但我今天工作排超滿,根本沒空處理,你有什麼辦法可以救救我嗎?」
然後就把錄音檔傳過來。
老實說其實我也不太知道怎麼把錄音檔轉成文字檔。之前因為做podcast,剪輯簡介之類的要自己做實在太累了,我就有想做把我podcast的錄音檔去產出逐字檔,但我發現網路上轉換語音檔功能大部分都要錢。也有很多幫你把 podcast檔案轉成逐字稿,做簡介,甚至分對話角色的服務,當然要價都不低。畢竟現在和AI扯上邊什麼都要錢。
最近在玩 Zebear 伺服器,裡面有很多寫好的模版放開源的工具,例如筆記軟體可以用開源的AFFiNE自己架,甚至訂閱費用越來越貴的Figma也有可以替代的開源軟體。
Wisper 語音檔轉成文字
不過為了要完成可愛女友的要求,我只好問一下chatgpt 有沒有什麼開源工具可以完成這個需求。gpt和我說了很多工具,他最推薦 Wisper 說是有中文支援。我看了一下。欸,使用方式滿簡單,只需要用 python和安裝套件就可以了。就想說來試試看。
Whisper 安裝方式:
pip install whisper ffmpegWhisper 使用指令:
whisper your-audio.mp3 --language Chinese --task transcribe
your-audio.mp3 是你的錄音檔。
然後你會看到他開始在轉換錄音檔,真的會把錄音內容識別出來。
雖然中文錯字還是很多,但至少是堪用的程度。
我是使用 m1 的 mac 去跑,m1 沒有 gpu好像會稍微慢一些,但也還算是可以轉。四十分鐘的錄音檔案大概轉了半個小時多一些,雖然有點久,但有成功完成任務就可以。
系統用量
記憶體和cpu用量算滿大的。

下一步,自動化
其實也不是真的自動化,因為還是需要上傳檔案然後產出逐字稿。應該說把這個服務做成產品,也就是作一個UI介面。
UI 流程圖
- 登入頁面 使用者首先進入登入畫面,通過帳號密碼驗證後,才能進入主系統頁面,也是為了紀錄使用者轉換的紀錄。
- 檔案上傳頁面 登入成功後,使用者會來到上傳頁面,可以:
- 選擇新的錄音檔進行上傳查看「檔案列表區塊(F)」中過去上傳過的檔案與其處理狀態
- 檔案列表區塊(F) 此區塊顯示:
- 上傳過的所有錄音檔清單每個檔案的處理狀態(如「轉換中」、「完成可下載」、「失敗」)可提供跳轉或下載按鈕
- 轉換中頁面(C) 當使用者上傳新的錄音檔後,會進入此頁面,顯示逐字稿處理進度 (也可以改為在列表中即時顯示「轉換中」,非強制跳頁)
- 逐字稿結果頁面(D) 轉換完成後,使用者可以:
- 閱讀逐字稿進行下載或返回重新上傳其他檔案
- 下載成功提示(E) 成功下載後,系統提示使用者已完成操作,並可返回上傳頁面。

大概的頁面流程設計如上。雖然我比較擔心的是伺服器轉換要多久。























