【Google Colab Python系列】OpenAI Whisper: 語音辨識產生字幕檔

更新於 2023/05/03發佈於 2023/04/24閱讀時間約 4 分鐘

上一篇「【Google Colab Python系列】初探Whisper: 來對一段Youtube影片進行辨識吧！」我們介紹了Whisper的基本用法及功能，這次我們除了語音辨識之外，還要下載辨識後的字幕檔，我想這對於我們常常看到沒有字幕的影片，若想要進行辨識與翻譯時非常有幫助。

這次的篇章主要做些什麼？

前置作業。
上傳影音檔。
自動語音辨識文字。
下載字幕檔(.srt)。

前置作業

安裝相關套件

openai-whisper

檢查是否開啟GPU

# 安裝whisper語音辨識工具
!pip install -U openai-whisper
# 檢查是否開啟GPU
!nvidia-smi

上傳影音檔

在Google Colab環境中如果要上傳音檔是沒問題的，貼心的Colab提供了API讓我們可以設計上傳音檔的功能，那就讓我們來實際玩玩吧。

P.S 上傳的時間會比下載的時間久很多，可以喝杯咖啡後再回來。

from google.colab import files
uploaded = files.upload()
todo = []
for fn in uploaded.keys():
  print('{name} with length {length} bytes'.format(name=fn, length=len(uploaded[fn])))
  todo.append(fn)todo

載入辨識模型

要載入什麼樣的模型呢？可以看看官方網站的「Available models and languages」

import whisper
model = whisper.load_model('large')

對上傳檔案進行辨識

import os
from whisper.utils import get_writer
# 輸出格式為srt
# 輸出路徑為目前位置
w = get_writer('srt', '.')for f in todo:
  name = os.path.basename(f)  result = model.transcribe(name)  srt_file_name = '{name}.srt'.format(name=name)
  w(result, srt_file_name)  files.download(srt_file_name)

結語

有了Whisper之後，我們就能夠本地開發一隻Python小程式來對影片進行辨識自動產生字幕了，如此一來就不用每次都上傳到雲端才開始進行，甚至人工產生字幕，基本上Whisper的辨識就目前使用上來說已經算是不錯了，句子的切點都還算精確，標點符號也都幫我們自動標上，真是貼心啊。

今天的範例都在這裡「📦 whisper_1_srt.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —

喜歡撰寫文章的你，不妨來了解一下：

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 — 為什麼要加入？

歡迎加入一起練習寫作，賺取知識，累積財富！

阿Han的沙龍阿Han的軟體技術棧 💡AI阿Han的沙龍阿Han的軟體技術棧 💡python

留言

留言分享你的想法！

阿Han

發文者

2024/07/03

在AI時代下打造屬於自己的語音辨識引擎原來這麼的簡單提及了這篇文章，趕快過去看看吧！

阿Han

發文者

2024/07/03

在AI時代下打造屬於自己的辨識引擎原來這麼的簡單提及了這篇文章，趕快過去看看吧！

阿Han

發文者

2024/07/03

在AI時代下打造屬於自己的辨識引擎原來這麼的簡單提及了這篇文章，趕快過去看看吧！

阿Han的沙龍

130會員

288內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

🤔 簡單且靜態就足夠了？相信我們在開發Python應用程式的過程中，常常會借用Enum來定義我們可能的選項，就像顏色紅、綠、黃會有這樣的結構： class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

當我們的系統發展到一定程度時，難免會面臨到正式上線的問題，要如何讓維運更加簡易呢？尤其隨著複雜的客製化配置的出現時，我們應該如何有效的管理，甚至驗證配置是否如預期資料型態、格式…，而正好 pydantic 可以滿足這樣的需求，就讓我們來看看怎麼使用吧！需安裝的套件 pip i

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

要如何使用unicorn啟動多個FastAPI服務，歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

Let's Write 的沙龍

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

#Cloudflare#OpenAI#Whisper

2024/08/07

Let's Write 的沙龍

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

#Cloudflare#OpenAI#Whisper

2024/08/07

阿Han的沙龍

【🆓 語音辨識引擎sherpa-onnx CPU上篇】讓您輕鬆體驗語音辨識功能(Docker架設)

還記得我們之前介紹過「【Google Colab Python系列】初探Whisper: 來一段Youtube影片進行語音辨識吧！」這套語音辨識引擎，那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式，輕鬆移植到各種平台，且效能更佳。語音辨識的熱門組件之

#sherpa#語音辨識#asr

2024/07/02

阿Han的沙龍

【🆓 語音辨識引擎sherpa-onnx CPU上篇】讓您輕鬆體驗語音辨識功能(Docker架設)

#sherpa#語音辨識#asr

2024/07/02

Wei 的工程師聊什麼

使用 OpenAI Whisper API 進行語音轉文字，方便字幕後製或內容整理

本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案，以及將長音訊分割並轉寫的過程。透過範例演示，讀者可以學習如何將音訊轉寫為文字，提高工作效率。

#OpenAI#檔案#程式

2024/02/13

Wei 的工程師聊什麼

使用 OpenAI Whisper API 進行語音轉文字，方便字幕後製或內容整理

#OpenAI#檔案#程式

2024/02/13

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Faster Whisper

本文提供如何使用 Google Colab 結合 Faster Whisper 來提升語音辨識速度與準確性，包含安裝指南與使用方法。探索如何將語音轉換為文本，並對檔案進行不同格式的輸出。

#Whisper#FasterWhisper#OpenAI

2024/01/17

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Faster Whisper

#Whisper#FasterWhisper#OpenAI

2024/01/17

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Whisper large v3

本篇筆記了如何使用Google Colab和OpenAI的Whisper Large V3進行免費且開源的語音辨識。涵蓋從基礎設定到實際運用的步驟，適合初學者和技術愛好者輕鬆學習語音辨識技術。

#Google#GPU#OpenAI

2024/01/13

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Whisper large v3

#Google#GPU#OpenAI

2024/01/13

無限智慧學院的沙龍

訓練 OpenAI Whisper V2-幫你的影片上字幕

大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版，可以用來製作屬於自己的自動影片上字幕程式，就讓我們一起來看看吧!

#上字幕#自動化#機器人流程自動化

2023/10/23

無限智慧學院的沙龍

訓練 OpenAI Whisper V2-幫你的影片上字幕

大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版，可以用來製作屬於自己的自動影片上字幕程式，就讓我們一起來看看吧!

#上字幕#自動化#機器人流程自動化

2023/10/23

茶桁的沙龍

19. 快速倾听和总结音频内容

Hi，大家好，我是茶桁。其实到第18章的时候，我们处理文本的内容就全部都结束了，从本节课开始，我们要开始学习如何处理音频和图像。我不知道有没有人和我一样的习性，就是比起视频和音频文件来说，还是跟喜欢看文本文件。这其中最主要的一个原因就是因为文本内容我们可以准确定位，而对于文本内容的接收速度还

2023/07/31

2023/07/31

【Google Colab Python系列】OpenAI Whisper: 語音辨識產生字幕檔

上一篇「【Google Colab Python系列】初探Whisper: 來對一段Youtube影片進行辨識吧！」我們介紹了Whisper的基本用法及功能，這次我們除了語音辨識之外，還要下載辨識後的字幕檔，我想這對於我們常常看到沒有字幕的影片，若想要進行辨識與翻譯時非常有幫助。這次的篇章主要做

#OpenAI#whisper#語音辨識

2023/04/24

阿Han的沙龍

【Google Colab Python系列】OpenAI Whisper: 語音辨識產生字幕檔

#OpenAI#whisper#語音辨識

2023/04/24

阿Han的沙龍

【Google Colab Python系列】初探Whisper: 來一段Youtube影片進行語音辨識吧！

這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式，並簡單的對Youtube影片進行線上翻譯的工作，主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜，就讓我們一起來玩玩看吧！在這之前我們還是說一下Whisper它是什麼樣的一個工具，能夠做什麼？ Whisper 是OpenAI

#whisper#AI#語音辨識

2023/04/23

阿Han的沙龍

【Google Colab Python系列】初探Whisper: 來一段Youtube影片進行語音辨識吧！

#whisper#AI#語音辨識

2023/04/23

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News