Colab 是什麼?
Google Colab(全名:Google Colaboratory)是一個由 Google 提供的免費線上程式開發平台,讓你可以直接在瀏覽器中撰寫並執行 Python 程式碼。
Colab 的主要特點:
💻 執行環境在 Google 的雲端伺服器上執行,不用在本機安裝 Python
📦 內建像是 NumPy、Pandas、Matplotlib、PyTorch、TensorFlow 等常見套件
📊 支援 Jupyter Notebook,有「文字 + 程式碼」的格式,非常適合教學與展示
🔄 會自動儲存到你的 Google Drive 裡
🆓 可免費使用 Google 雲端 CPU / GPU / TPU(有使用限制)
📁 可以上傳本機檔案到雲端執行
🤝 像 Google 文件一樣,允許多人同時協作與註解
Whisper 是什麼?
Whisper 是 OpenAI 開發的一種 語音辨識模型(Speech-to-Text, STT),可以把「語音、音檔、影片的語音部分」轉成文字。
Whisper 的主要特點:
🧠 AI 語音辨識—使用深度學習模型(Transformer)訓練而成
🌐 多語言支援—支援英文、中文、日文等多種語言
🔄 自動翻譯—可將語音「自動翻譯成英文」(可選)
🎥 支援音訊和影片—可處理 .mp3, .wav, .m4a, .mp4 等
🆓 開源免費—可免費下載、離線執行(也可用 OpenAI API 雲端版本)
📋 附時間戳記—可輸出逐句段落與時間點(做字幕超方便)
步驟 1. 至 Colab 新增或開啟一個筆記本

步驟 2. 安裝 Whisper 模型,輸入以下程式碼,按前方的「執行」圖示,等待安裝完畢
# 安裝開源 Whisper 模型(OpenAI 官方開源)
!pip install -U openai-whisper

指令前面加 ! 是什麼意思?
是在 Colab 或 Jupyter Notebook 裡的特殊語法,代表「執行這行系統指令(Shell Command)」
pip 是什麼?
pip 是 Python 的 套件管理工具,全名是:Pip Installs Packages
它的作用是從 Python 的官方套件庫 PyPI 安裝別人寫好的套件(library)
- U 是什麼?
-U 是 pip 安裝指令中的一個參數,它的意思是:
--upgrade(簡寫為 -U)= 升級套件到最新版本
步驟 3. 上傳你要轉為文字的語音檔案,輸入以下程式碼,執行後選擇你要上傳的檔案等它跑完
from google.colab import files
uploaded = files.upload() # 選擇 .mp3, .m4a, .mp4, .wav 等檔案

跑完的程式碼,點擊執行結果左邊的箭頭圖案,可以將執行結果隱藏
步驟 4. 進行語音轉文字,輸入以下程式碼,執行
import whisper
# 載入模型:可選 base、small、medium、large(越大越準,但越慢)
model = whisper.load_model("base") # base 是平衡版,準確又不慢
# 取得你上傳的檔案名稱
import os
filename = list(uploaded.keys())[0]
# 開始辨識
result = model.transcribe(filename)
# 顯示文字內容
for segment in result["segments"]:
print(segment["text"])

步驟 5. 存為文字檔,輸入以下程式碼,執行
with open("segments.txt", "w", encoding="utf-8") as f:
for segment in result["segments"]:
f.write(segment["text"] + "\n")

轉錄結果會被儲存在 Colab 虛擬環境中的一個叫做「segments.txt」的暫時檔案
它目前在 Colab 的當前工作目錄,這個路徑是隱藏的,但可以下 !ls 指令查詢
步驟 6. 將該文字檔下載到電腦,輸入以下程式碼,執行
from google.colab import files
files.download("segments.txt")

這樣就成功將錄音檔的文字下載到電腦裡囉!