付費限定

(有程式碼)🎙️ Whisper + LLM:打造一個能自動聽、寫、翻的智慧語音系統

更新 發佈閱讀 49 分鐘

🧱 環境建置準備

在開始實作前,請先確保你的執行環境具備以下條件:

1) Ollama 本地 LLM 服務

請先安裝 Ollama 並能正常啟動服務(預設 API 位置為 http://127.0.0.1:11434)。

同時需下載支援中日語理解的模型(例如 gpt-oss:20b、llama3.1:8b-instruct、qwen2.5:7b-instruct 等)。

確保程式中的 LLM_MODEL 與實際下載的模型名稱一致。


2) Python 環境

請使用 Python 3.10 ~ 3.12 版本,並已安裝必要工具(pip、venv)。


3) 虛擬環境(env)

建議在專案目錄中建立獨立虛擬環境(python -m venv env),

並在執行前啟用(source env/bin/activate 或相同效果的指令)。


4) ffmpeg

請確認系統已安裝 ffmpeg,以供 Whisper 處理音訊轉檔。

可執行 ffmpeg -version 確認是否可用。


5) pip 套件清單

以下是本專案所需的最小安裝套件(requirements.txt):

numpy
scipy
sounddevice
openai-whisper
langchain
langchain-ollama
tqdm
numba

若使用 GPU,可依平台額外安裝對應的 torch 版本。


完成以上環境條件後,即可執行 Whisper + LLM 的即時語音轉文字與日文翻譯系統。

  • 以下 A→G 七段程式碼為同一專案的分段;請保持順序 貼上。

請我喝杯咖啡吧!付費即可解鎖
本篇內容共 19313 字、0 則留言,僅發佈於玩轉開發實戰系列你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
Michael楊
30會員
134內容數
日後將分享關於我的經驗(日常、工作、技術),並期待未來能創造屬於我的宇宙。
你可能也想看
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
vocus 慶祝推出 App,舉辦 2026 全站慶。推出精選內容與數位商品折扣,訂單免費與紅包抽獎、新註冊會員專屬活動、Boba Boost 贊助抽紅包,以及全站徵文,並邀請你一起來回顧過去的一年, vocus 與創作者共同留下了哪些精彩創作。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 想要操作ChatGPT,我們可以參考OpenAI的範例: https://platform.openai.com/examples/default-sql-trans
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 想要操作ChatGPT,我們可以參考OpenAI的範例: https://platform.openai.com/examples/default-sql-trans
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 7,已經完成Colab Python環境配置。 針對Attention Layer的程式配置為: start_time =
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 7,已經完成Colab Python環境配置。 針對Attention Layer的程式配置為: start_time =
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
  我們在語音初探篇提到TTS的流程可以分成三個部分 :輸入前處理、預測音訊特徵、語音重建,其中輸入前處理的部分上兩篇已經處理完,在進入預測音訊特徵前,讓我們先來理解最後的語音重建部分。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
Thumbnail
上篇我們簡單的了解了 TTS 想要達到的目標,但是對於訓練資料的處理、網路架構、損失函數、輸出分析等考慮到篇幅尚未解釋清楚,這篇將針對訓練資料處理中的文字部分進行詳細說明,讓我們開始吧。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News