【Google Colab Python系列】OpenAI Whisper: 語音辨識產生字幕檔

閱讀時間約 3 分鐘
上一篇「【Google Colab Python系列】 初探Whisper: 來對一段Youtube影片進行辨識吧!」我們介紹了Whisper的基本用法及功能,這次我們除了語音辨識之外,還要下載辨識後的字幕檔,我想這對於我們常常看到沒有字幕的影片,若想要進行辨識與翻譯時非常有幫助。

這次的篇章主要做些什麼?

  • 前置作業。
  • 上傳影音檔。
  • 自動語音辨識文字。
  • 下載字幕檔(.srt)。

前置作業

安裝相關套件

  • openai-whisper

檢查是否開啟GPU

# 安裝whisper語音辨識工具
!pip install -U openai-whisper
# 檢查是否開啟GPU
!nvidia-smi

上傳影音檔

在Google Colab環境中如果要上傳音檔是沒問題的,貼心的Colab提供了API讓我們可以設計上傳音檔的功能,那就讓我們來實際玩玩吧。
P.S 上傳的時間會比下載的時間久很多,可以喝杯咖啡後再回來。
from google.colab import files
uploaded = files.upload()
todo = []
for fn in uploaded.keys():
print('{name} with length {length} bytes'.format(name=fn, length=len(uploaded[fn])))
todo.append(fn)todo

載入辨識模型

要載入什麼樣的模型呢?可以看看官方網站的「Available models and languages
import whisper
model = whisper.load_model('large')

對上傳檔案進行辨識

import os
from whisper.utils import get_writer
# 輸出格式為srt
# 輸出路徑為目前位置
w = get_writer('srt', '.')for f in todo:
name = os.path.basename(f) result = model.transcribe(name) srt_file_name = '{name}.srt'.format(name=name)
w(result, srt_file_name) files.download(srt_file_name)

結語

有了Whisper之後,我們就能夠本地開發一隻Python小程式來對影片進行辨識自動產生字幕了,如此一來就不用每次都上傳到雲端才開始進行,甚至人工產生字幕,基本上Whisper的辨識就目前使用上來說已經算是不錯了,句子的切點都還算精確,標點符號也都幫我們自動標上,真是貼心啊。
今天的範例都在這裡「📦 whisper_1_srt.ipynb」歡迎自行取用。
— — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — — —
喜歡撰寫文章的你,不妨來了解一下:
歡迎加入一起練習寫作,賺取知識,累積財富!
為什麼會看到廣告
116會員
257內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式,並簡單的對Youtube影片進行線上翻譯的工作,主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜,就讓我們一起來玩玩看吧! 在這之前我們還是說一下Whisper它是什麼樣的一個工具,能夠做什麼? Whisper 是OpenAI
MongoDB非常擅長查詢大量的數據並經常更新這些資訊, 在多數的情況之下, 我們只要查詢資訊最新的狀態, 那假設我們需要查詢資料的上一個狀態呢? 如果我們需要一些文檔版本控管功能時怎麼辦呢? 這就是我們可以使用版本控管設計模式的地方了。 這個模式之下會保存文檔的歷史版本, 我們就不用導入另外一個版
本篇主要是介紹MongoDB有哪些進階的索引, 了解原理及功能後, 在應用上才能規劃出更有效率的索引, 而主要會談到以下五個索引類型: 複合索引。 部份索引。 多鍵索引。 全文索引。 TTL索引。 進入到索引類型之前先提醒一下,一個集合的索引數不能超過64個。 限制: 最多只能31個欄位做一組複合索
主要是收攏documents的容器, 可以支援各種不同結構的document。 不能為空字串。 不能以system開頭, 這是系統集合保留的前綴。 超過配置大小, 新增時當超過配置限額時, 會先從最早的document刪除後再append新的document。 更新時不能超過size限制。 不能刪除
Web Workers主要提供簡單的API讓網頁在背景執行緒中執行程式而不干擾使用者的操作。 javascript主要功能是與user操作頁面互動及操作dom,試想若使用多執行緒的概念,那麼一個動作是新增至某個dom節點,另一個動作則是修改該dom節點,此時瀏覽器應該使用哪個動作為準? 所以為了避免
Service worker與Web workers相同,也都是一段運行在瀏覽器後台的腳本,提供一些不需要與頁面直接交互的功能(操作dom),主要處理網路相關的問題,可以攔截網路請求進行相對應的優化動作,我們把它想像成與伺服器之間的代理服務器可能會比較容易理解,當網路環境不佳時便回應快取資源,待網路
這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式,並簡單的對Youtube影片進行線上翻譯的工作,主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜,就讓我們一起來玩玩看吧! 在這之前我們還是說一下Whisper它是什麼樣的一個工具,能夠做什麼? Whisper 是OpenAI
MongoDB非常擅長查詢大量的數據並經常更新這些資訊, 在多數的情況之下, 我們只要查詢資訊最新的狀態, 那假設我們需要查詢資料的上一個狀態呢? 如果我們需要一些文檔版本控管功能時怎麼辦呢? 這就是我們可以使用版本控管設計模式的地方了。 這個模式之下會保存文檔的歷史版本, 我們就不用導入另外一個版
本篇主要是介紹MongoDB有哪些進階的索引, 了解原理及功能後, 在應用上才能規劃出更有效率的索引, 而主要會談到以下五個索引類型: 複合索引。 部份索引。 多鍵索引。 全文索引。 TTL索引。 進入到索引類型之前先提醒一下,一個集合的索引數不能超過64個。 限制: 最多只能31個欄位做一組複合索
主要是收攏documents的容器, 可以支援各種不同結構的document。 不能為空字串。 不能以system開頭, 這是系統集合保留的前綴。 超過配置大小, 新增時當超過配置限額時, 會先從最早的document刪除後再append新的document。 更新時不能超過size限制。 不能刪除
Web Workers主要提供簡單的API讓網頁在背景執行緒中執行程式而不干擾使用者的操作。 javascript主要功能是與user操作頁面互動及操作dom,試想若使用多執行緒的概念,那麼一個動作是新增至某個dom節點,另一個動作則是修改該dom節點,此時瀏覽器應該使用哪個動作為準? 所以為了避免
Service worker與Web workers相同,也都是一段運行在瀏覽器後台的腳本,提供一些不需要與頁面直接交互的功能(操作dom),主要處理網路相關的問題,可以攔截網路請求進行相對應的優化動作,我們把它想像成與伺服器之間的代理服務器可能會比較容易理解,當網路環境不佳時便回應快取資源,待網路
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
本文深入探討Google關鍵字廣告的運作原理、不同模式及應用策略,幫助企業精準觸達目標受眾,提升品牌曝光和轉換率。
Thumbnail
本文提供如何使用 Google Colab 結合 Faster Whisper 來提升語音辨識速度與準確性,包含安裝指南與使用方法。探索如何將語音轉換為文本,並對檔案進行不同格式的輸出。
Thumbnail
本篇筆記了如何使用Google Colab和OpenAI的Whisper Large V3進行免費且開源的語音辨識。涵蓋從基礎設定到實際運用的步驟,適合初學者和技術愛好者輕鬆學習語音辨識技術。
Thumbnail
Google Colab是一個基於雲端的Python開發環境,提供免費的CPU和GPU資源,讓用戶可以在網頁瀏覽器中運行和編寫Python程式。它具有強大的協作功能,可以與他人共享和編輯程式碼。Google Colab支援Jupyter筆記本,並提供預裝的Python套件,方便進行數據分析、機器學習
Thumbnail
“Bard和ChatGPT都是大型語言模型,但它們各有優缺點。Bard更擅長回答問題和提供信息,而ChatGPT更擅長生成文本和創意內容。” 在教育方面,Bard可以用來幫助學生學習。它可以回答問題、為主題提供摘要,甚至生成練習題。 ChatGPT可以幫助學生進行創意寫作,例如生成詩歌、故事和劇本。
Thumbnail
不知道老師們在進行線上測驗時是如何避免學生切換畫面尋找答案,又或者是避免學生找人代考呢? 今天要來介紹一款 Google 表單的外掛程式「 Quilgo 」
Thumbnail
請問在以下三檔股票中,你會選擇哪一檔持有到現在? 1. Google 2. Apple 3. 達美樂 想一想,你會選擇哪個買入持有到現在呢? 有答案了嗎? 不要緊張 就憑直覺選擇吧 OK了嗎? 那我要告訴你我的答案了。 -- 當我在思考這題的答案,也是歷經一番掙扎 主要是根據這幾年來的感受 我必須
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答
Thumbnail
Keep常被拿來和OneNote或EverNote來比較,因為都有「快速記事」這部分的功能。當然,EverNote和OneNote除了記事的支援程度和Keep相同以外,在記事的美觀及客制程度上都比Keep來得更為強大,這是做為一個「記事工具」理所當然要有的優勢…
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
Thumbnail
本文深入探討Google關鍵字廣告的運作原理、不同模式及應用策略,幫助企業精準觸達目標受眾,提升品牌曝光和轉換率。
Thumbnail
本文提供如何使用 Google Colab 結合 Faster Whisper 來提升語音辨識速度與準確性,包含安裝指南與使用方法。探索如何將語音轉換為文本,並對檔案進行不同格式的輸出。
Thumbnail
本篇筆記了如何使用Google Colab和OpenAI的Whisper Large V3進行免費且開源的語音辨識。涵蓋從基礎設定到實際運用的步驟,適合初學者和技術愛好者輕鬆學習語音辨識技術。
Thumbnail
Google Colab是一個基於雲端的Python開發環境,提供免費的CPU和GPU資源,讓用戶可以在網頁瀏覽器中運行和編寫Python程式。它具有強大的協作功能,可以與他人共享和編輯程式碼。Google Colab支援Jupyter筆記本,並提供預裝的Python套件,方便進行數據分析、機器學習
Thumbnail
“Bard和ChatGPT都是大型語言模型,但它們各有優缺點。Bard更擅長回答問題和提供信息,而ChatGPT更擅長生成文本和創意內容。” 在教育方面,Bard可以用來幫助學生學習。它可以回答問題、為主題提供摘要,甚至生成練習題。 ChatGPT可以幫助學生進行創意寫作,例如生成詩歌、故事和劇本。
Thumbnail
不知道老師們在進行線上測驗時是如何避免學生切換畫面尋找答案,又或者是避免學生找人代考呢? 今天要來介紹一款 Google 表單的外掛程式「 Quilgo 」
Thumbnail
請問在以下三檔股票中,你會選擇哪一檔持有到現在? 1. Google 2. Apple 3. 達美樂 想一想,你會選擇哪個買入持有到現在呢? 有答案了嗎? 不要緊張 就憑直覺選擇吧 OK了嗎? 那我要告訴你我的答案了。 -- 當我在思考這題的答案,也是歷經一番掙扎 主要是根據這幾年來的感受 我必須
Thumbnail
現代人遇到問題,就會Google。單身一個人住,回到家覺得空虛寂寞、覺得冷,於是上Google輸入:「排解寂寞」。如果喉嚨痛,會打「喉嚨痛」;發現男友出軌,很想知道原因,會打「男友出軌原因」,還有各式各樣的問題,包括但不限於:健康、家庭、經濟、政治、職場、生日要送什麽禮物、約炮、旅遊建議、學校功課答
Thumbnail
Keep常被拿來和OneNote或EverNote來比較,因為都有「快速記事」這部分的功能。當然,EverNote和OneNote除了記事的支援程度和Keep相同以外,在記事的美觀及客制程度上都比Keep來得更為強大,這是做為一個「記事工具」理所當然要有的優勢…