【Google Colab Python系列】初探Whisper: 來一段Youtube影片進行語音辨識吧！

2024/07/15 更新2023/04/23 發佈閱讀 5 分鐘

這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式，並簡單的對Youtube影片進行線上翻譯的工作，主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜，就讓我們一起來玩玩看吧！在這之前我們還是說一下Whisper它是什麼樣的一個工具，能夠做什麼？

Whisper簡介

Whisper 是OpenAI 提供的一種最先進自動語音辨識( Automatic Speech Recognition，ASR )模型，用來執行語音辨識與翻譯的功能。

能夠將各種語言的語音轉錄成文字，甚至可以處理較差的音頻品質或過多的背景雜訊。

P.S 聽起來就很威，別著急，讓我們實際試試看才知道…

觀看 Whisper 官方文件

使用Whisper過程中難免會遇到各式各樣的問題，最簡單的方式就是查看原廠的官方文件囉！

這是一個opensource的專案，因此放置於Github： https://github.com/openai/whisper

安裝Whisper

這邊我們會直接使用Google Colab Python環境來進行安裝。

# 安裝whisper語音辨識工具
!pip install -U openai-whisper

# 安裝youtube套件，這工具主要幫我們下載youtube影片進行後續的語音辨識demo，算是一個語音前處理工具
!pip install pytube

在這之前記得切換成GPU模式

語音辨識在解碼的時候採用GPU模式一定比CPU模式來的快，而Google Colab也提供一些GPU資源給我們，記得進行切換，否則後面的作業會等待的非常久…

首先我們在右上角點選資源的圖示，並且點擊下方的「變更執行階段類型」。

接著我們就切換成「GPU」吧

試著找一段Youtube影音，嘗試在Google Colab播放測試

這裡我們找了一段長約「3分30秒」的影片，https://www.youtube.com/watch?v=EYhlGV9AZHI

我們接著就來Google Colab播放試試看吧

from IPython.display import YouTubeVideo

YouTubeVideo('EYhlGV9AZHI')py

接著我們使用pytube來抓取影片資訊

這邊我們就取得title屬性並印出試試看

from pytube import YouTube

url = 'https://www.youtube.com/watch?v=EYhlGV9AZHI'

yt = YouTube(url)

# 抓取標題試試看
yt.title

下載純音檔

streams = yt.streams
audio = streams.get_audio_only()
obj = audio.download(filename='test.mp4')

載入辨識模型

要載入什麼樣的模型呢？可以看看官方網站的「Available models and languages」

這邊我們就選擇大型的模型`large`試試看最佳可以辨識的如何？

import whisper
model = whisper.load_model('large')

對下載的音檔進行辨識

這邊我們就直接載入剛下載完成的test.mp4，執行時間會有一些等待，這邊環境下大約等待1分鐘左右。

result = model.transcribe('test.mp4')
result

我們可以看到回傳結果不只有整段文字，也將每一段的時間邊界切割出來，並精準的辨識出文字，看到這邊聰明的我們應該聯想到什麼了吧！沒錯，就是字幕檔，很多影片早期上字幕檔是非常繁雜的，透過whisper的精準辨識讓我們可以加快效率，來看看結果吧！

結語

使用了Whisper之後，突然感覺到時代的演變真的超快，早期的kaldi專案也曾經玩過，但複雜的腳本與架構令人退卻，現如今的Whisper除了文檔完備豐富之外，使用起來也非常的簡易，而且結果也非常的人性化，下一個篇章我們就要來玩玩它的產生字幕檔、如何調整參數，讓我們也能夠簡易的使用門檻高的語音辨識吧。

今天的範例都在這裡「📦 whisper_0_yt.ipynb」歡迎自行取用。

如何使用請參閱「【Google Colab系列】台股分析預備式： Colab平台與Python如何擦出火花？」。

阿Han的沙龍阿Han的軟體技術棧 💡AI阿Han的沙龍阿Han的軟體技術棧 💡python

留言

留言分享你的想法！

阿Han的沙龍

139會員

303內容數

哈囉，我是阿Han，是一位 👩‍💻 軟體研發工程師，喜歡閱讀、學習、撰寫文章及教學，擅長以圖代文，化繁為簡，除了幫助自己釐清思路之外，也希望藉由圖解的方式幫助大家共同學習，甚至手把手帶您設計出高品質的軟體產品。

阿Han的沙龍的其他內容

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

🤔 簡單且靜態就足夠了？相信我們在開發Python應用程式的過程中，常常會借用Enum來定義我們可能的選項，就像顏色紅、綠、黃會有這樣的結構： class Color(str, Enum): RED = 'red' GREED = 'green' YELLOW = 'yel

2025/01/29

【💊 Python的解憂錦囊】Enum也可以很靈活 - 動態模板字串

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

當我們的系統發展到一定程度時，難免會面臨到正式上線的問題，要如何讓維運更加簡易呢？尤其隨著複雜的客製化配置的出現時，我們應該如何有效的管理，甚至驗證配置是否如預期資料型態、格式…，而正好 pydantic 可以滿足這樣的需求，就讓我們來看看怎麼使用吧！需安裝的套件 pip i

2025/01/08

【💊 Python的解憂錦囊】既能管理環境變數又能驗證的pydantic

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

要如何使用unicorn啟動多個FastAPI服務，歡迎參考我們的「【💊 Python的解憂錦囊 - FastAPI】如何啟動多個Workers」。當我們試著設計帶入模組化時… 我們在「【💊 Python的解憂錦囊 - FastAPI】使用 lifespan 來共享資料與管理生命週期

2025/01/02

【💊 Python的解憂錦囊 - FastAPI】多個worker如何共享數據？

看更多

你可能也想看

Emma 的意識界。

輕鬆賺零用金的祕密 | 蝦皮分潤計畫賺零用金實測成果開箱＋近期敗家好物開箱 😁

透過蝦皮分潤計畫，輕鬆賺取零用金！本文分享5-6月實測心得，包含數據流程、實際收入、平臺優點及注意事項，並推薦高分潤商品，教你如何運用空閒時間創造被動收入。

#蝦皮#行動電源#測試

2025/09/07

Emma 的意識界。

輕鬆賺零用金的祕密 | 蝦皮分潤計畫賺零用金實測成果開箱＋近期敗家好物開箱 😁

#蝦皮#行動電源#測試

2025/09/07

好好宅在家

【單身實驗室．蝦皮分潤計畫】藏身蝦皮的植系青屬，為我的北向陽台增添家人。

單身的人有些會養寵物，而我養植物。畢竟寵物離世會傷心，植物沒養好再接再厲就好了~（笑）

#開箱#蝦皮分潤計畫#單身實驗室

2025/09/12

好好宅在家

【單身實驗室．蝦皮分潤計畫】藏身蝦皮的植系青屬，為我的北向陽台增添家人。

單身的人有些會養寵物，而我養植物。畢竟寵物離世會傷心，植物沒養好再接再厲就好了~（笑）

#開箱#蝦皮分潤計畫#單身實驗室

2025/09/12

翰墨飄香的沙龍

補貨小日常｜居家生活用品實測分享，還順便開啟蝦皮分潤計畫小驚喜！

不知你有沒有過這種經驗？衛生紙只剩最後一包、洗衣精倒不出來，或電池突然沒電。這次一次補貨，從電池、衛生紙到洗衣精，還順便分享使用心得。更棒的是，搭配蝦皮分潤計畫，愛用品不僅自己用得安心，分享給朋友還能賺回饋。立即使用推薦碼 X5Q344E，輕鬆上手，隨時隨地賺取分潤！

#衛生紙#洗衣精#居家生活

2025/09/10

翰墨飄香的沙龍

補貨小日常｜居家生活用品實測分享，還順便開啟蝦皮分潤計畫小驚喜！

#衛生紙#洗衣精#居家生活

2025/09/10

阿Mo的murmur小天地🪄

開箱＋分潤分享｜社畜的療癒小樹洞 🧑‍🎨 iPad 殼 × 蝦皮分潤計畫

身為一個典型的社畜，上班時間被會議、進度、KPI 塞得滿滿，下班後只想要找一個能夠安靜喘口氣的小角落。對我來說，畫畫就是那個屬於自己的小樹洞。無論是胡亂塗鴉，還是慢慢描繪喜歡的插畫人物，那個專注在筆觸和色彩的過程，就像在幫心靈按摩一樣，讓緊繃的神經慢慢鬆開。

#小確幸#iPad#樹洞

2025/09/10

阿Mo的murmur小天地🪄

開箱＋分潤分享｜社畜的療癒小樹洞 🧑‍🎨 iPad 殼 × 蝦皮分潤計畫

#小確幸#iPad#樹洞

2025/09/10

Let's Write 的沙龍

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

#Cloudflare#OpenAI#Whisper

2024/08/07

Let's Write 的沙龍

免費開源的語音辨識功能：Cloudflare Workers AI + Whisper

了解如何使用 Cloudflare Workers AI 與 Whisper 建立免費開源的語音辨識功能。本文詳細說明註冊步驟、部署流程及程式碼修改，讓你輕鬆將語音轉換成文字。

#Cloudflare#OpenAI#Whisper

2024/08/07

阿Han的沙龍

【🆓 語音辨識引擎sherpa-onnx CPU上篇】讓您輕鬆體驗語音辨識功能(Docker架設)

還記得我們之前介紹過「【Google Colab Python系列】初探Whisper: 來一段Youtube影片進行語音辨識吧！」這套語音辨識引擎，那為什麼我們又要教這一套? 因為我們也可以將whisper的模型轉換成onnx的格式，輕鬆移植到各種平台，且效能更佳。語音辨識的熱門組件之

#sherpa#語音辨識#asr

2024/07/02

阿Han的沙龍

【🆓 語音辨識引擎sherpa-onnx CPU上篇】讓您輕鬆體驗語音辨識功能(Docker架設)

#sherpa#語音辨識#asr

2024/07/02

Wei 的工程師聊什麼

使用 OpenAI Whisper API 進行語音轉文字，方便字幕後製或內容整理

本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案，以及將長音訊分割並轉寫的過程。透過範例演示，讀者可以學習如何將音訊轉寫為文字，提高工作效率。

#OpenAI#檔案#程式

2024/02/13

Wei 的工程師聊什麼

使用 OpenAI Whisper API 進行語音轉文字，方便字幕後製或內容整理

#OpenAI#檔案#程式

2024/02/13

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Faster Whisper

本文提供如何使用 Google Colab 結合 Faster Whisper 來提升語音辨識速度與準確性，包含安裝指南與使用方法。探索如何將語音轉換為文本，並對檔案進行不同格式的輸出。

#Whisper#FasterWhisper#OpenAI

2024/01/17

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Faster Whisper

#Whisper#FasterWhisper#OpenAI

2024/01/17

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Whisper large v3

本篇筆記了如何使用Google Colab和OpenAI的Whisper Large V3進行免費且開源的語音辨識。涵蓋從基礎設定到實際運用的步驟，適合初學者和技術愛好者輕鬆學習語音辨識技術。

#Google#GPU#OpenAI

2024/01/13

Let's Write 的沙龍

免費開源的語音辨識功能：Google Colab + Whisper large v3

#Google#GPU#OpenAI

2024/01/13

無限智慧學院的沙龍

訓練 OpenAI Whisper V2-幫你的影片上字幕

大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版，可以用來製作屬於自己的自動影片上字幕程式，就讓我們一起來看看吧!

#上字幕#自動化#機器人流程自動化

2023/10/23

無限智慧學院的沙龍

訓練 OpenAI Whisper V2-幫你的影片上字幕

大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版，可以用來製作屬於自己的自動影片上字幕程式，就讓我們一起來看看吧!

#上字幕#自動化#機器人流程自動化

2023/10/23

茶桁的沙龍

19. 快速倾听和总结音频内容

Hi，大家好，我是茶桁。其实到第18章的时候，我们处理文本的内容就全部都结束了，从本节课开始，我们要开始学习如何处理音频和图像。我不知道有没有人和我一样的习性，就是比起视频和音频文件来说，还是跟喜欢看文本文件。这其中最主要的一个原因就是因为文本内容我们可以准确定位，而对于文本内容的接收速度还

2023/07/31

2023/07/31

【Google Colab Python系列】OpenAI Whisper: 語音辨識產生字幕檔

上一篇「【Google Colab Python系列】初探Whisper: 來對一段Youtube影片進行辨識吧！」我們介紹了Whisper的基本用法及功能，這次我們除了語音辨識之外，還要下載辨識後的字幕檔，我想這對於我們常常看到沒有字幕的影片，若想要進行辨識與翻譯時非常有幫助。這次的篇章主要做

#OpenAI#whisper#語音辨識

2023/04/24

阿Han的沙龍

【Google Colab Python系列】OpenAI Whisper: 語音辨識產生字幕檔

#OpenAI#whisper#語音辨識

2023/04/24

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News