訓練 OpenAI Whisper V2-幫你的影片上字幕

閱讀時間約 9 分鐘

前言:

幫影片上字幕好麻煩也好無聊,使用網路上的上字幕服務又會擔心腳本外洩,被人侵害著作權,要解決以上痛點,現在有很好用的模型可以自行訓練,讓您製作影片可以把重心放在內容與其他呈現方式。相信本文介紹的解法,你會喜歡💕,想知道更多可以參加免費諮詢,讓我多瞭解各種生活上的痛點,好讓我可以逐步提出解決方案給大家!

大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,用於語音辨識與翻譯的預訓練模型,Whisper 是Alec Radford 等人在論文Robust Speech Recognition via Large-Scale Weak Supervision中提出的。來自 OpenAI。原始程式碼存儲庫可以在這裡找到。

可以用來辨識多國語言,有興趣的人可以先玩玩看範例

範例包含一個語音檔,以及翻譯後的文字

範例包含一個語音檔,以及翻譯後的文字

影片上字幕程式片段範例:

以下為範例程式,輸入為影片音檔,輸出為翻譯以及語音出現的起始時間與終點時間

import torch
from transformers import pipeline
from datasets import load_dataset

device = "cuda:0" if torch.cuda.is_available() else "cpu"

pipe = pipeline(
"automatic-speech-recognition",
model="openai/whisper-large-v2",
chunk_length_s=30,
device=device,
)

ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation")
sample = ds[0]["audio"]

prediction = pipe(sample.copy(), batch_size=8)["text"]

# we can also return timestamps for the predictions
prediction = pipe(sample.copy(), batch_size=8, return_timestamps=True)["chunks"]

#[{'text': ' Mr. Quilter is the apostle of the middle classes and we are glad to welcome his gospel.',
# 'timestamp': (0.0, 5.44)}]

影片字幕翻譯程式片段範例:

下面為字幕自動由法文翻譯成英文的範例

from transformers import WhisperProcessor, WhisperForConditionalGeneration
from datasets import Audio, load_dataset

# load model and processor
processor = WhisperProcessor.from_pretrained("openai/whisper-large-v2")
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v2")
forced_decoder_ids = processor.get_decoder_prompt_ids(language="french", task="translate")

# load streaming dataset and read first audio sample
ds = load_dataset("common_voice", "fr", split="test", streaming=True)
ds = ds.cast_column("audio", Audio(sampling_rate=16_000))
input_speech = next(iter(ds))["audio"]
input_features = processor(input_speech["array"], sampling_rate=input_speech["sampling_rate"], return_tensors="pt").input_features

# generate token ids
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
# decode token ids to text
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)

# [' A very interesting work, we will finally be given on this subject.']​

模型簡介:

Whisper 是一種基於 Transformer 的編碼器-解碼器模型,也稱為Seq-to-seq模型。它接受了 68 萬小時的標記語音資料的訓練,這些資料使用大規模弱監督進行註釋。

這些模型是根據純英語資料或多語言資料進行訓練的。僅英語模型接受了語音辨識任務的訓練。多語言模型接受了語音辨識和語音翻譯的訓練。對於語音識別,該模型會預測與音訊相同語言的轉錄。對於語音翻譯,該模型會預測轉錄為與音訊不同的語言。

Whisper 檢查點有五種不同型號尺寸的配置。最小的四個接受純英語或多語言資料的訓練。最大的檢查站僅支援多種語言。Hugging Face Hub上提供了所有十個預先訓練的預訓練存檔模型

Finetune Whisper模型:

FineTune可以讓模型針對特定任務加以強化,由於預訓練模型是使用英文音檔訓練而成,如果要翻譯中文字幕,則需要對中文的語音資料集Finetune,所幸Mozilla資料集裡面有大量的繁體中文與台灣口音的資料,Finetune起來給台灣人專用也不成問題。

關於Finetune 模型的方法,可以在以下網址找到

https://github.com/openai/whisper/discussions/988

訓練資料採用非營利組織Mozilla所提供的大型多語言監督學習資料

https://huggingface.co/datasets/mozilla-foundation/common_voice_11_0

用電腦自行Finetune成功畫面,Finetune完以後便可自動替所有影片產生字幕SRT檔

用電腦自行Finetune成功畫面,Finetune完以後便可自動替所有影片產生字幕SRT檔

心得:

各種基於Transformer邊解碼器的大型語言模型不斷地冒出來,準確率高,對語言的理解能力強,超乎大眾所想像,相較於傳統的人類上字幕,Openai 公開發表的Whisper V2 可以快速準確且全年無休的把字幕檔產生出來,未來對於內容創作者,可以說是一大福音!

引用:

@misc{radford2022whisper,
doi = {10.48550/ARXIV.2212.04356},
url = {https://arxiv.org/abs/2212.04356},
author = {Radford, Alec and Kim, Jong Wook and Xu, Tao and Brockman, Greg and McLeavey, Christine and Sutskever, Ilya},
title = {Robust Speech Recognition via Large-Scale Weak Supervision},
publisher = {arXiv},
year = {2022},
copyright = {arXiv.org perpetual, non-exclusive license}
}

廣告:

本課程早鳥20人已全數招收完畢,感謝支持,不另外招生。

如果你對 AI 充滿熱情,又不想浪費時間,歡迎點擊連結參加免費諮詢,請點擊以下連結預約時間,跟我聊聊你對於目前人工智慧的看法,還有其他想法上變得交流。請準時參加,否則會取消後續參加資格。

 https://calendly.com/universe_ai/free_appointment

96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
2023年被各大主流媒體稱為AI元年,GPT4 在國際生物奧林匹亞競賽大放異彩,擊敗 99% 的資優生,無人可敵。擁有人工技術,等於擁有世界頂尖員工,24小時不停歇,為你不斷生出結果。然而,多數人對 AI 基本知識仍不明白,知識差距急速擴大,要想不被AI取代,必須懂AI與活用AI。
本篇參與的主題活動
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
先前麥克買了在預算及性能方面都十分複合需求的NXTPAPER 11平板,但拿到辦公室使用後便發現因為時不時有簡報需求,主機本身不支援有線視訊輸出實在是非常不方便,因又開始尋找新歡。最終麥克選擇了算是還滿熟悉的品牌小米旗下的小米平板6,以下為麥克這一個月下來的使用心得。
從預計的十月底出貨經過重重波折,Pubu自家開發的10寸彩色閱讀器Pubook Pro終於是送到第一批集資者手中了。究竟這台閱讀器有沒有本事撼動目前的電子紙閱讀器市場?有達到集資時承諾的各項功能嗎?且讓身為首批集資者之一的麥克跟大家談談收到主機後使用數天的感想。
Steam Deck 迎來大改版,最重要的更新就是換成 OLED 螢幕。使用 OLED 螢幕帶來更好看的顏色,大小還小幅提升到 7.4 吋。關係續航力的電池也從 40 瓦小時升級到 50 瓦小時, 3A 大作都可以多玩一小時呢!這麼香的更新,怎麼不給他買下去呢 😄
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
想交易,必須把自己練成訓練有素的士兵! 不談腦補的想法,只看是否恪守規劃! 機會來了,你可以做不到,也可以不做,結局就是你OUT,你不適合留在市場。 ----------------------------------- 市場如商場,商場如戰場。 士兵的死亡率遠低於老百姓!
想像一下,有一天你打開電腦,聽到一個AI助手用熟悉的聲音跟你打招呼。這聲音婉轉動聽,帶著一絲慵懶的性感,聽起來就像是......斯嘉麗·約翰遜? 這不是科幻電影的劇情,而是最近真實發生在好萊塢巨星斯嘉麗·約翰遜身上的事。AI巨頭OpenAI推出了一款名為「Sky」的AI語音助手,其聲音被許多人
相信在星爸星媽活用應用行為分析一段時間,就能理解〝嚴厲公正〞的訓練星星兒過程,是什麼原則。 而有的讀者會想:那麼,有星星兒是嚴重的星星兒,不就要狠心? 其實,不能說是狠心,而是先搞清楚,嚴厲公正,是指什麼樣的程度。 因為,真的要耍狠心,就是虐待了。 而重點,嚴厲公正,就如同阿鷹在超級偶像第二
新的經理要求每個人都要上個45分鐘的 Violence prevention課;其實我們排班人員用到的機會不多,但既然要上就上吧。 上完課,我和一同事的共同感受就是菲律賓講師發音非常"菲",且英文表達能力不好,不太能清楚表達她要說甚麼。這些專業人怎麼好意思用這樣的英文來幫大家上課呢。上課中的互動,
要說解決星星兒的無法連貫的方式,就只有從小的陪讀繪本所建立的認知同理心。 因此,目前的3c產品,成為孩童的束縛。 而最近有小兒科醫師指出,孩童在3c產品的狀態下,就沒有培養語言能力和活用腦子的機會,因此,近年來的發展遲緩孩童,就有增加的趨勢。 可想而知,既然腦子正常發展孩童的陪讀繪本很重要,那
在應用行為分析的重點,有提到〝獎勵品〞的部分。 因此,只要是根據自閉症者的喜愛物品,做最初的獎勵品。 可以自製代幣 不管是用畫的、用蓋印章的,甚至,用魔鬼粘結合,都可以做代幣。 用一對一的方式,以簡單具體的指令為主。 剛開始,可以藉由觀察自閉症者需要訓練的項目,做簡單的評估。 在見到自閉症者需要訓練
以基本社交來說,動漫不是沒有。 就以情緒做例子,像是有情緒障礙的自閉症者,因為玩遊戲王的戰鬥怪獸牌,可以用遊戲王動漫,做媒介。 要以自閉症者的障礙為主 像是,這自閉症者對遊戲王怪獸之決鬥第162集的鞭屍羽蛾,印象深刻。 因此,這以這樣引導。 訓練師:來,肯納,我知道你喜歡這劇情橋段,那麼,你知道闇遊
Thumbnail
對於希望建立個人反思習慣的你, 這篇文章將教你如何利用AI輔助進行有效的反思, 並將這些反思轉化為具體的行動計劃! 步驟1 - 一分鐘自言自語,捕捉潛意識:在手機或電腦上開啟語音辨識功能,接著就進行一分鐘的自言自語!不要想太多,就說出你此刻的想法和感受吧!你會發現,這將幫助你探究自己潛意識中的關注點
Thumbnail
我在一開始想經營自媒體的時候,也是摸索了很久,沒有頭緒該如何跨出第一步,想不到能夠分享什麼內容...但在建立兩個平台時發現,我選擇的主題很相似,都是以語錄分享和紀錄生活感悟為主。如果你也有這樣的疑慮,想知道怎麼找到方向的話,不妨問問自己這三個問題...
Thumbnail
在這篇文章中,我們將介紹如何使用Python來創建自動化的Binance交易程式。我們將利用Binance API,這是一個允許我們通過程式訪問Binance交易所的接口。這樣,我們就可以在程式中設定交易策略和條件,自動下單交易。 在開始之前,您需要先申請一個Binance交易所帳戶。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
11/20日NVDA即將公布最新一期的財報, 今天Sell Side的分析師, 開始調高目標價, 市場的股價也開始反應, 未來一週NVDA將重新回到美股市場的焦點, 今天我們要分析NVDA Sell Side怎麼看待這次NVDA的財報預測, 以及實際上Buy Side的倉位及操作, 從
Thumbnail
Hi 大家好,我是Ethan😊 相近大家都知道保濕是皮膚保養中最基本,也是最重要的一步。無論是在畫室裡長時間對著畫布,還是在旅途中面對各種氣候變化,保持皮膚的水分平衡對我來說至關重要。保濕化妝水不僅能迅速為皮膚補水,還能提升後續保養品的吸收效率。 曾經,我的保養程序簡單到只包括清潔和隨意上乳液
想交易,必須把自己練成訓練有素的士兵! 不談腦補的想法,只看是否恪守規劃! 機會來了,你可以做不到,也可以不做,結局就是你OUT,你不適合留在市場。 ----------------------------------- 市場如商場,商場如戰場。 士兵的死亡率遠低於老百姓!
想像一下,有一天你打開電腦,聽到一個AI助手用熟悉的聲音跟你打招呼。這聲音婉轉動聽,帶著一絲慵懶的性感,聽起來就像是......斯嘉麗·約翰遜? 這不是科幻電影的劇情,而是最近真實發生在好萊塢巨星斯嘉麗·約翰遜身上的事。AI巨頭OpenAI推出了一款名為「Sky」的AI語音助手,其聲音被許多人
相信在星爸星媽活用應用行為分析一段時間,就能理解〝嚴厲公正〞的訓練星星兒過程,是什麼原則。 而有的讀者會想:那麼,有星星兒是嚴重的星星兒,不就要狠心? 其實,不能說是狠心,而是先搞清楚,嚴厲公正,是指什麼樣的程度。 因為,真的要耍狠心,就是虐待了。 而重點,嚴厲公正,就如同阿鷹在超級偶像第二
新的經理要求每個人都要上個45分鐘的 Violence prevention課;其實我們排班人員用到的機會不多,但既然要上就上吧。 上完課,我和一同事的共同感受就是菲律賓講師發音非常"菲",且英文表達能力不好,不太能清楚表達她要說甚麼。這些專業人怎麼好意思用這樣的英文來幫大家上課呢。上課中的互動,
要說解決星星兒的無法連貫的方式,就只有從小的陪讀繪本所建立的認知同理心。 因此,目前的3c產品,成為孩童的束縛。 而最近有小兒科醫師指出,孩童在3c產品的狀態下,就沒有培養語言能力和活用腦子的機會,因此,近年來的發展遲緩孩童,就有增加的趨勢。 可想而知,既然腦子正常發展孩童的陪讀繪本很重要,那
在應用行為分析的重點,有提到〝獎勵品〞的部分。 因此,只要是根據自閉症者的喜愛物品,做最初的獎勵品。 可以自製代幣 不管是用畫的、用蓋印章的,甚至,用魔鬼粘結合,都可以做代幣。 用一對一的方式,以簡單具體的指令為主。 剛開始,可以藉由觀察自閉症者需要訓練的項目,做簡單的評估。 在見到自閉症者需要訓練
以基本社交來說,動漫不是沒有。 就以情緒做例子,像是有情緒障礙的自閉症者,因為玩遊戲王的戰鬥怪獸牌,可以用遊戲王動漫,做媒介。 要以自閉症者的障礙為主 像是,這自閉症者對遊戲王怪獸之決鬥第162集的鞭屍羽蛾,印象深刻。 因此,這以這樣引導。 訓練師:來,肯納,我知道你喜歡這劇情橋段,那麼,你知道闇遊
Thumbnail
對於希望建立個人反思習慣的你, 這篇文章將教你如何利用AI輔助進行有效的反思, 並將這些反思轉化為具體的行動計劃! 步驟1 - 一分鐘自言自語,捕捉潛意識:在手機或電腦上開啟語音辨識功能,接著就進行一分鐘的自言自語!不要想太多,就說出你此刻的想法和感受吧!你會發現,這將幫助你探究自己潛意識中的關注點
Thumbnail
我在一開始想經營自媒體的時候,也是摸索了很久,沒有頭緒該如何跨出第一步,想不到能夠分享什麼內容...但在建立兩個平台時發現,我選擇的主題很相似,都是以語錄分享和紀錄生活感悟為主。如果你也有這樣的疑慮,想知道怎麼找到方向的話,不妨問問自己這三個問題...
Thumbnail
在這篇文章中,我們將介紹如何使用Python來創建自動化的Binance交易程式。我們將利用Binance API,這是一個允許我們通過程式訪問Binance交易所的接口。這樣,我們就可以在程式中設定交易策略和條件,自動下單交易。 在開始之前,您需要先申請一個Binance交易所帳戶。