付費限定

三分鐘實作"多國語言"轉字幕網頁APP (Whisper-V3-Large)

無限智慧學院

發佈於人工智慧宇宙

更新於 2024/11/12發佈於 2023/11/13閱讀時間約 10 分鐘

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，寫出一個使用AI將聲音轉成字幕srt檔案的互動操作網頁，可以連接麥克風測試，也可以上傳聲音檔案或是MP3來測試。

目前的多國語言版本，能自動辨別語言，不須額外微調，經實測，中英文混雜也能夠正確輸出。本文主要帶你跑通整個流程，想了解更多，可以參考以下的文章

實作完成圖片:

操作介面簡單俐落，可以麥克風錄音，也可以上傳聲音檔案

實作導出字幕檔範例:

本程式碼有額外把輸出轉成srt字幕檔案，方便使用者做微調與修改。

完整流程:

安裝ffmpeg (windows / linux / mac)
安裝Anaconda (For python 初次使用者)
安裝git，並且設定好Git (For git 初次使用者)
打開Power shell依序輸入以下指令，從Github上面下載程式包，然後到程式目錄下，藉由requirements.txt 安裝好程式運作所需要的python套件

以行動支持創作者！付費即可解鎖

本篇內容共 4252 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

無限智慧學院的沙龍人工智慧宇宙AI實作範例

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言0

查看全部

發表第一個留言支持創作者！

無限智慧學院的沙龍的其他內容

生成模型是不斷的宇宙大爆炸與熱寂循環，讀YaRN悟道

相信大家要能完全理解ROPE編碼與YaRN插值手法，需要較長的時間，導致收穫感沒有這麼強。算法背後其實隱含了宇宙自然運行的道理，旋轉位置編碼，最早的形式出現在古代中國易經，繞完一整圈表示一個階段的結束，預示下一個階段的開始。

#YaRN #ROPE #PositionalEncoding

讓Mistral 7B搞定長序列128K (e.g.雜誌)，使用YaRN插值改良手法

本篇精選熱點論文，基於ROPE(Rotary Position Embeddings)改善插值方式，讓模型可以在短序列(4K Tokens)進行訓練，接著在長序列(128K Tokens)僅做少數微調，甚至無須微調，就能達到泛化到極長輸入序列的能力，模型可以吞下一整本雜誌，輸出困惑度表現也能夠維持!

#positionEmbedding #YARN #論文講解

三分鐘搞懂語言模型能力指標，Perplexity (困惑度)

如何評量一個大型語言模型有學到東西? 其中一個常用指標就是Perplexity(困惑度)。由於困惑度被大量論文引用，學習CP值很高，所以寫專文介紹。

#困惑 #編碼 #關鍵指標

三分鐘內實作聲音轉字幕網頁App

相信替影片配字幕是許多人心中的痛，本文帶你在三分鐘內能夠用你的電腦，實做聲音轉字幕網站，準備好了就來吧!

#Huggingface #github #三分鐘

從模型參數量與映射觀點出發，論證宇宙熱寂與大爆炸無限閉環假說

根據熱力學熵增鐵律，多數人認為宇宙會最終會進入熱寂(亂度散度最大化)，然後死去，但事實或許不然，一年有四季，日昇日落，大自然注定是生生不息，循環往復的，有鑑於近來大量閱讀AI關於模型與映射的概念，突然靈光乍現，想出了一套能讓宇宙生生不息的假說，讓我們一起來逐步論證!

#模型 #人工智慧 #機率

三分鐘內由上帝視角理解Positional Encoding

相信有不少人在剛接觸Attention is all you need這篇論文的時候，最感到困惑的就是Positional Encoding，知道公式長怎樣，不外乎就是Cosine / Sine，但始終無法直搗黃龍，理解背後的道理，本篇文提供各種觀點，讓你三分鐘內搞懂!