MLX - Whisper 教學 - 1

閱讀時間約 4 分鐘

在開始前,請先至 GitHub 上 Clone 相關資源到環境裡。

$ git clone https://github.com/ml-explore/mlx-examples.git

完成後,進入資料夾

$ cd ./mlx-examples/whisper​

裡面有以下資源:

# whisper​
.
|-- whisper # MLX 專用的 whisper 套件
|-- README.md​
|-- benchmark.py # 評估效能
|-- requirements.txt # 環境檔​
`-- test.py # 測試


根據 README 指示,先安裝好 Python 環境,Python 版本筆者是使用 3.9。

pip install -r requirements.txt

接著安裝多媒體轉換函式庫,這邊是使用 macOS 的 brew 來安裝,brew 安裝方法請直接到官網上複製指令到終端機上執行即可,完成後也不要忘記再執行它提示的指令。

brew install ffmpeg

在這邊就完成環境的準備了。


接著,文檔也提供了一個範本,如下

import whisper

text = whisper.transcribe(speech_file)["text"]

把 speech_file 改成檔案物件或是檔案路徑,接著直接執行就會直接開始轉換。


但文件並沒有提到其他的使用方法,因此筆者就翻了一下原始碼...

# ./whisper/whisper/transcribe.py

​def transcribe(
audio: Union[str, np.ndarray, mx.array],
*,
model: str = "tiny",
verbose: Optional[bool] = None,
temperature: Union[float, Tuple[float, ...]] = (0.0, 0.2, 0.4, 0.6, 0.8, 1.0),
compression_ratio_threshold: Optional[float] = 2.4,
logprob_threshold: Optional[float] = -1.0,
no_speech_threshold: Optional[float] = 0.6,
condition_on_previous_text: bool = True,
initial_prompt: Optional[str] = None,
prepend_punctuations: str = "\"'“¿([{-",
append_punctuations: str = "\"'.。,,!!??::”)]}、",
**decode_options,
):

...

發現是有其他常見的選項可以調整,像是:

  • model:tiny, base, small, medium, large,調整模型的大小。
  • verbose:True, False,是否要印出狀態,如果是 True 在轉換時就會一直印出轉好的文字與時間戳。
  • temperature:0.0, 0.2, 0.4, 0.6, 0.8, 1.0,語句的溫度。
  • initial_prompt:起始的文字,可以讓模型預先了解接下來的轉譯內容,若有專有名詞無法被正確辨識,可以先在這邊加上一些提示詞。
  • decode_options:fp16,...。可以改用 16 精度的浮點運算,預設為 32 精度。
  • 語言的部分似乎是自動辨識,一開始會需要約 30 秒來辨識語言。

以下是筆者自己實驗用的程式碼:

import whisper

path = './TEST.mp3'



fileRoot = '/'.join(path.split('/')[:-1])
fileName = path.split('/')[-1].split('.')[0]

text = whisper.transcribe(path, model='medium', verbose=True)["text"]

open(f'{fileRoot}/{fileName}-whisper.txt', 'w').write(text)

將上方的 path 改成自己檔案的路徑再執行,就會看見轉譯的過程,並且完成後會在同一目錄下看到同檔名的 TXT 純文字字幕檔。

留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
創作者要怎麼好好休息 + 避免工作過量?《黑貓創作報#4》午安,最近累不累? 這篇不是虛假的關心。而是《黑貓創作報》發行以來可能最重要的一篇。 是的,我們這篇講怎麼補充能量,也就是怎麼休息。
Thumbnail
avatar
黑貓老師
2024-06-29
防曬產品係數測試報告彙整(2024年)從2014年起,自己對於市售防曬產品的效能產生了濃厚的興趣。因為當時候發現不少產品的防曬係數其實標示是有問題的,像是原本應該是人體測試的SPF與PA數值,實際上沒有做,只用機器測試的數據來充當,但這兩者卻有很大的差異。像是防曬係數其實有強度、廣度與平均度三個面向需要一起判斷,但多數廠商並沒有完整標示
Thumbnail
avatar
邱品齊皮膚科醫師
2023-04-27
訓練 OpenAI Whisper V2-幫你的影片上字幕大名鼎鼎的openai推出Whisper-large-v2 AI 的第二版,可以用來製作屬於自己的自動影片上字幕程式,就讓我們一起來看看吧!
Thumbnail
avatar
無限智慧學院
2023-10-23
Whisper of Dark SoulIntoxicating Blood smeared Desolate Land
Thumbnail
avatar
永恆噩夢
2023-07-10
Sukin就是愛你日常保養三步驟|天然植萃|環境友善|平價保養|澳洲國民品牌近年來從歐美到亞洲有機、天然的概念興起,吹起一股植萃風潮。各大保養品牌也紛紛推出融入了植萃概念的頂級保養品,使得不少人將“植萃”二字與高價位劃上等號,遲遲不敢入手。今天要介紹一款"錢包友善"的植萃品牌—Sukin給大家,不只減輕肌膚負擔,荷包也沒有負擔!
Thumbnail
avatar
Sumire Yang
2022-12-26
Careless Whisper長到這麼大,看過那麼多形形色色的人,知道有許多靈魂是不眠的貓。有些人是夜店咖,而李世寬不一樣,他是夜市咖。 第一次遇見李世寬就知道有鬼。 我的印象很深刻,那是個撈魚的普通攤位,那夜卻聚集了不少吆喝的人群。我被這景象吸引了,心想到底撈魚的攤位放了什麼珍奇異種,總不可能是一尾上萬的紅龍吧?
Thumbnail
avatar
瓦力唱片行
2022-01-28
【 SAKE WHISPER 】清酒競賽是飲者的懶人包?就算在疫情之前,近年常聽說日本清酒要出口海外,但無奈至今出口量只不過寥寥可數的4 ~ 5%。我想主要原因來自製造商對輸出海外的取態不一所致!有些酒藏想法是覺得海外沒有飲清酒的風氣,焦點留於國內,甚至縣內,以生產地酒為傲;但另一幫鼓吹出口的酒藏卻牢牢抓住了契機,努力將自家產品賣出去......
Thumbnail
avatar
Umai Magazine
2021-01-13
【 SAKE WHISPER 】清酒唎酒師 是餐廳職位? 認證資歷? 還是唎酒之路的開始?經常有個不明白的迷思,究竟坊間所謂的「唎酒師」應該是一個餐廳職位還是認證資歷呢?這個問題打從我學習清酒課程的時候就已經有,到現在我還是攪不清楚...... 唎酒師的專業資格,不外乎是證書一張、襟章一枚,拿了之後才是唎酒師之路的開始......
Thumbnail
avatar
Umai Magazine
2021-01-10
【 SAKE Whisper 】 女性禁足於釀造場?「杜氏」是日本酒藏裡的首席釀酒師,其下配有其他的熟練工匠——「藏人」。 據說「杜氏」一詞源自中國最早釀出酒的杜康之名。 (也有說法認為事實上是杜康的妻子釀造出酒。) 日文中還留有「刀自」(日文中與杜氏發音相同,文字不同) 這一古老的詞語,是「夫人」 或者「女士」的文言用語。在古代,釀酒曾經.....
Thumbnail
avatar
Umai Magazine
2021-01-06
【 SAKE Whisper 】 701的爆破點也許大家對日本酒界大前輩 秋山裕一 認識不深,但大家一定聽過他畢生心血的名字、歷史首枚「低發泡性酵母」酵母菌株~「協會701號」。秋山裕一(Yuichi Akiyama)1924年出生於山梨縣的酒造家庭。1947年畢業於東京大學,在被尊稱為「日本酒博士」的坂口謹一郎教授其發酵科學課下學習了5年...
Thumbnail
avatar
Umai Magazine
2021-01-06
【 Sake Whisper 】 從葡萄酒客的角度去欣賞日本清酒從葡萄酒客的角度去欣賞日本清酒,無疑是日本清酒業界的新思維,就連日本人也要重新學習與認識他們的表達方法與取向。不過,葡萄酒人(先接觸葡萄酒、再走進清酒世界的飲者)有個特點,喜歡分析......
Thumbnail
avatar
Umai Magazine
2021-01-06