付費限定

三分鐘實作"多國語言"轉字幕網頁APP (Whisper-V3-Large)

閱讀時間約 10 分鐘

相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁,可以連接麥克風測試,也可以上傳聲音檔案或是MP3來測試。

目前的多國語言版本,能自動辨別語言,不須額外微調,經實測,中英文混雜也能夠正確輸出。本文主要帶你跑通整個流程,想了解更多,可以參考以下的文章

實作完成圖片:

操作介面簡單俐落,可以麥克風錄音,也可以上傳聲音檔案

操作介面簡單俐落,可以麥克風錄音,也可以上傳聲音檔案

實作導出字幕檔範例:

本程式碼有額外把輸出轉成srt字幕檔案,方便使用者做微調與修改。

本程式碼有額外把輸出轉成srt字幕檔案,方便使用者做微調與修改。

完整流程:

  1. 安裝ffmpeg (windows / linux / mac)
  2. 安裝Anaconda (For python 初次使用者)
  3. 安裝git,並且設定好Git (For git 初次使用者)
  4. 打開Power shell依序輸入以下指令,從Github上面下載程式包,然後到程式目錄下,藉由requirements.txt 安裝好程式運作所需要的python套件
以行動支持創作者!付費即可解鎖
本篇內容共 4252 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
留言0
查看全部
發表第一個留言支持創作者!
相信大家要能完全理解ROPE編碼與YaRN插值手法,需要較長的時間,導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理,旋轉位置編碼,最早的形式出現在古代中國易經,繞完一整圈表示一個階段的結束,預示下一個階段的開始。
本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,模型可以吞下一整本雜誌,輸出困惑度表現也能夠維持!
如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
相信大家要能完全理解ROPE編碼與YaRN插值手法,需要較長的時間,導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理,旋轉位置編碼,最早的形式出現在古代中國易經,繞完一整圈表示一個階段的結束,預示下一個階段的開始。
本篇精選熱點論文,基於ROPE(Rotary Position Embeddings)改善插值方式,讓模型可以在短序列(4K Tokens)進行訓練,接著在長序列(128K Tokens)僅做少數微調,甚至無須微調,就能達到泛化到極長輸入序列的能力,模型可以吞下一整本雜誌,輸出困惑度表現也能夠維持!
如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用,學習CP值很高,所以寫專文介紹。
相信替影片配字幕是許多人心中的痛,本文帶你在三分鐘內能夠用你的電腦,實做聲音轉字幕網站,準備好了就來吧!
根據熱力學熵增鐵律,多數人認為宇宙會最終會進入熱寂(亂度散度最大化),然後死去,但事實或許不然,一年有四季,日昇日落,大自然注定是生生不息,循環往復的,有鑑於近來大量閱讀AI關於模型與映射的概念,突然靈光乍現,想出了一套能讓宇宙生生不息的假說,讓我們一起來逐步論證!
相信有不少人在剛接觸Attention is all you need這篇論文的時候,最感到困惑的就是Positional Encoding,知道公式長怎樣,不外乎就是Cosine / Sine,但始終無法直搗黃龍,理解背後的道理,本篇文提供各種觀點,讓你三分鐘內搞懂!
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
這一篇來聊聊大家相對陌生的智慧財產權類型——營業秘密。 其實營業秘密比想像中常見,隨手舉些例子會讓你們更有感覺:科技公司的know-how、核心技術;零售業的定價模式;廣告公司的投放策略餐廳的烹調秘訣。只要符合《營業秘密法》要求的三要件,就能被認定是營業秘密。
Thumbnail
這一篇從「專利權」開始,下一篇則是「營業秘密」。 這兩種智慧財產權的關係比較微妙,除了有點承先啟後的味道在,到了某個時點開始還會發生互斥的關係。以下讓我娓娓道來~ 台灣《專利法》將專利權分為「發明專利」、「新型專利」、「設計專利」三種類型,依據其創意展現的高低,也有相應的保護年限。
Thumbnail
近年來大家應該很常聽到「IP」這個字。今天要談的不是「IP Address(網路位址)」的IP,而是作為「Intellectual Property(智慧財產權)」縮寫的IP。 有時大家會誤以為智慧財產權是離自己很遙遠的權利,但它在生活中其實處處可見。例如:內容創作者撰寫的文章、拍攝的影像⋯⋯
Thumbnail
調校電腦系統軟硬體,開啟 ChatGPT 的語音外掛,擴增 ChatGPT 的語音功能,升級進化 AI !!!
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
Thumbnail
白藜蘆醇是一種作用相當廣泛的天然植萃成分,對於身體內部及皮膚外觀都有不錯的作用效能,是一個非常值得推廣應用的優質美妝成分。
Thumbnail
我:你能用幾種語言生成資料? GPT-4:作為一個先進的語言模型,我可以理解和生成多種語言的資料,包括但不限於: 1. 英語(English) 2. 漢語(中文)(Chinese) 3. 西班牙語(Spanish) 4. 法語(French) 5. 德語(German) 6. 俄語(Russian
Thumbnail
貧窮是最好的大學,在貧窮裏長大後,沒有什麼可以難倒你。這篇分享我小學時市場幫忙剝蝦殼,國中回家地上寫作業。母親當會頭被倒會。國中時感冒高燒41℃、蜜蜂螫、蜈蚣咬。我仍然自己找出路,拆開東西看、看看書找樂趣,化學從三分到六十五分,英文從十分到六十分。希望激勵困境中的朋友。
Thumbnail
VanillaVoice 可以幫我解決什麼問題:臨時想要將一小段不長的文字用語音唸出來,或是轉成MP3檔案用於其它地方 官網:VanillaVoice - Turn Text into Human-Sounding Speech 平台:網頁版
Thumbnail
TTS文字轉語音應用特色 1. TTS主要功能 將text文字檔的內容,轉換為wav檔,可送到Buffer,播放軟體可以讀取buffer做聲音後處理 能自動判斷前後文,自動判斷常用多音字、年份、日期、時間、電話、數字、%
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
這一篇來聊聊大家相對陌生的智慧財產權類型——營業秘密。 其實營業秘密比想像中常見,隨手舉些例子會讓你們更有感覺:科技公司的know-how、核心技術;零售業的定價模式;廣告公司的投放策略餐廳的烹調秘訣。只要符合《營業秘密法》要求的三要件,就能被認定是營業秘密。
Thumbnail
這一篇從「專利權」開始,下一篇則是「營業秘密」。 這兩種智慧財產權的關係比較微妙,除了有點承先啟後的味道在,到了某個時點開始還會發生互斥的關係。以下讓我娓娓道來~ 台灣《專利法》將專利權分為「發明專利」、「新型專利」、「設計專利」三種類型,依據其創意展現的高低,也有相應的保護年限。
Thumbnail
近年來大家應該很常聽到「IP」這個字。今天要談的不是「IP Address(網路位址)」的IP,而是作為「Intellectual Property(智慧財產權)」縮寫的IP。 有時大家會誤以為智慧財產權是離自己很遙遠的權利,但它在生活中其實處處可見。例如:內容創作者撰寫的文章、拍攝的影像⋯⋯
Thumbnail
調校電腦系統軟硬體,開啟 ChatGPT 的語音外掛,擴增 ChatGPT 的語音功能,升級進化 AI !!!
Thumbnail
要為展覽製作不同語言的解說錄音,但找不到合適的配音人?現今的博物館已經不再只是單一的展示文物,而是透過多媒體的方式來呈現文物背後的故事、歷史和文化背景。 其中一個重要的元素是語音導覽,能夠讓前來參觀的民眾更深入地了解展品和展覽的內容。
Thumbnail
白藜蘆醇是一種作用相當廣泛的天然植萃成分,對於身體內部及皮膚外觀都有不錯的作用效能,是一個非常值得推廣應用的優質美妝成分。
Thumbnail
我:你能用幾種語言生成資料? GPT-4:作為一個先進的語言模型,我可以理解和生成多種語言的資料,包括但不限於: 1. 英語(English) 2. 漢語(中文)(Chinese) 3. 西班牙語(Spanish) 4. 法語(French) 5. 德語(German) 6. 俄語(Russian
Thumbnail
貧窮是最好的大學,在貧窮裏長大後,沒有什麼可以難倒你。這篇分享我小學時市場幫忙剝蝦殼,國中回家地上寫作業。母親當會頭被倒會。國中時感冒高燒41℃、蜜蜂螫、蜈蚣咬。我仍然自己找出路,拆開東西看、看看書找樂趣,化學從三分到六十五分,英文從十分到六十分。希望激勵困境中的朋友。
Thumbnail
VanillaVoice 可以幫我解決什麼問題:臨時想要將一小段不長的文字用語音唸出來,或是轉成MP3檔案用於其它地方 官網:VanillaVoice - Turn Text into Human-Sounding Speech 平台:網頁版
Thumbnail
TTS文字轉語音應用特色 1. TTS主要功能 將text文字檔的內容,轉換為wav檔,可送到Buffer,播放軟體可以讀取buffer做聲音後處理 能自動判斷前後文,自動判斷常用多音字、年份、日期、時間、電話、數字、%