【💊 Python的解憂錦囊】使用python-ffmpeg即時串流轉換音檔格式

閱讀時間約 6 分鐘

訊息的即時傳遞已然成為現代社會的趨勢了, 影音也是如此, 即時! 即時! 即時! 已經是目前使用者體驗的必要元素了, 在這邊我們要分享的主題是如何在python程式語言的情境下使用ffmpeg來將音檔串流的轉換格式, 為什麼會有這樣的需求呢? 因為我們處理音檔時可能會需要統一輸出的格式, 當然背後也是考量到成本、效率兩大因素, 檔案越小越好, 節省的硬體成本可以提昇企業的獲利, 而搭上「串流」的應用我們可以怎麼處理音訊的部份呢?


那麼我們今天的demo概念流程如下:

raw-image


預期會設計一個讀取器, 一包一包的讀取來源音檔, 並透過python-ffmpeg轉碼, 轉換成指定的音檔格式, 最後將轉換後的封包組合並輸出成檔案。


程式碼分析與實作

這邊是我們實際運作後可行的程式碼:

import ffmpeg
import io
import os
import queue
import threading

def read_output(pipe, q):
""" 用於非阻塞讀取 ffmpeg 的 stdout """
while True:
data = pipe.read(4096)
if not data:
break
q.put(data)
q.put(None) # 標記輸出結束

def convert(input_file_path, output_file_path):
# 打開原始文件
with open(input_file_path, 'rb') as input_file:
# 創建一個 BytesIO 物件來處理轉換的輸出
output_stream = io.BytesIO()

# 使用 ffmpeg 進行轉換
process = (
ffmpeg
.input('pipe:0') # 從標準輸入讀取
.output('pipe:1', format='wav') # 輸出到標準輸出,格式為 opus
.run_async(pipe_stdin=True, pipe_stdout=True, pipe_stderr=True)
)

# 創建一個隊列來接收標準輸出
q = queue.Queue()
# 啟動一個線程來讀取標準輸出
threading.Thread(target=read_output, args=(process.stdout, q), daemon=True).start()

# 逐段讀取並寫入轉換過程
chunk_size = 4096
while True:
chunk = input_file.read(chunk_size)
if not chunk:
break
process.stdin.write(chunk)

# 關閉標準輸入流
process.stdin.close()

# 讀取轉換過來的數據並寫入 BytesIO 物件
while True:
out_chunk = q.get()
if out_chunk is None:
break
output_stream.write(out_chunk)

# 確保 process 結束
process.wait()

# 將 BytesIO 物件的內容寫入到指定的輸出文件中
with open(output_file_path, 'wb') as output_file:
output_file.write(output_stream.getvalue())

# 使用範例
convert('2.mp3', '2.wav')


接著我們用圖來分析一下上述的實作範例:

raw-image

📌 關鍵重點如下:

  1. 多執行緒分別處理標準輸出與輸入。
  2. 由queue搭起ffmpeg輸出與輸入的執行緒溝通橋樑。


讓我們來檢視一下轉換前/後

我們轉出後會有以下的音檔:

raw-image



接著我們使用ffprobe來檢查這兩個檔案:


ffprobe examples/2.mp3

....
Input #0, mp3, from '2.mp3':
Metadata:
Encoded by : LAME in FL Studio 20
BPM (beats per minute): 120
date : 2018
Duration: 00:00:58.02, start: 0.025057, bitrate: 146 kb/s
Stream #0:0: Audio: mp3, 44100 Hz, stereo, fltp, 146 kb/s
Metadata:
encoder : LAME3.100
ffprobe examples/2.wav

...
Input #0, wav, from '2.wav':
Metadata:
date : 2018
encoder : Lavf59.27.100
Duration: 00:00:57.99, bitrate: 1411 kb/s
Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 44100 Hz, 2 channels, s16, 1411 kb/s



結語

我們的分享僅將格式進行粗淺的轉換, 更多細部的參數調整還是需要您自行對ffmpeg進行設定, 這部份只是在講述如何將小封包流過ffmpeg再流到檔案的過程, 對了, 如果您對於串流應用感到興趣,也歡迎您加入「🔒 阿Han的軟體心法實戰營 - kafka專區」, 讓我們一起為「串流」的資要搭起橋樑, 讓傳輸更即時可靠。

avatar-img
117會員
262內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
我們在學習kafka的過程中最不習慣的就是不管什麼樣的資料, 在kafka的傳輸過程都會是binary的資料格式, 因此我們在撰寫程式的過程中並不是那麼的直觀, 必須將資料從float、int…資料型態轉型成binary才能順利傳送, 那麼基於這樣的前提之下, python這套程式語言可以怎麼做
情境描述 我們在「🔒 阿Han的軟體心法實戰營 - kafka」有關於kafka的教學文章, 那麼在開發過程中我們遇到了 👻 詭異事件, 那就是我們嘗試在做一個檔案串流時, 發現Producer明明傳送了大約16MB檔案大小的封包到kafka, 每一包約(1024 * 1024 ) bytes
更快、更短、更即時是串流傳輸必要的元素, 而我們常常在使用Python請求API時都是等待式回應, 也就是一個請求過去之後, 待對方處理完畢後再行回應, 但假設需要下載的檔案、內容非常大時, 是不是使用者只能傻傻的等待整個傳輸結束後才能顯示? 這樣的使用者體驗也實在太糟糕了, 對於使用者來說除了完全
情況描述 我們在「【🔒 Python 先修班】教你親手打包專屬套件庫的手作課(pip install…)」有提到如何打包Python讓自己的程式變成套件, 讓其他人可以用pip install的方式進行安裝,😲 But… 我們實際上打包後, 發現到引用的檔案都有被打包進去,但目錄卻未被打包
我們在「【🔒 Python API框架篇 - FastAPI】Ep.1 啟航」有分享 FastAPI 這套API框架, 那麼當我們想要在應用程式剛執行時就註冊一些事件或者共享GPU運算模型、變數…等,當整個應用程式關閉時也進行釋放作業, 這樣的一個週期循環就是所謂的生命週期, 而在FastAPI這
當我們在開發一個AI應用服務時, 常常會需要載入大模型, But… 我們總不可能每一次的請求就載入一次模型吧! 這樣太沒有效率了, 也非常的浪費資源, 因此我們通常會希望應用程式啟動時就能夠載入模型, 之後每一次的請求只要讓模型進行運算即可, 那麼在FastAPI的框架中究竟要如何使用呢? 首
我們在學習kafka的過程中最不習慣的就是不管什麼樣的資料, 在kafka的傳輸過程都會是binary的資料格式, 因此我們在撰寫程式的過程中並不是那麼的直觀, 必須將資料從float、int…資料型態轉型成binary才能順利傳送, 那麼基於這樣的前提之下, python這套程式語言可以怎麼做
情境描述 我們在「🔒 阿Han的軟體心法實戰營 - kafka」有關於kafka的教學文章, 那麼在開發過程中我們遇到了 👻 詭異事件, 那就是我們嘗試在做一個檔案串流時, 發現Producer明明傳送了大約16MB檔案大小的封包到kafka, 每一包約(1024 * 1024 ) bytes
更快、更短、更即時是串流傳輸必要的元素, 而我們常常在使用Python請求API時都是等待式回應, 也就是一個請求過去之後, 待對方處理完畢後再行回應, 但假設需要下載的檔案、內容非常大時, 是不是使用者只能傻傻的等待整個傳輸結束後才能顯示? 這樣的使用者體驗也實在太糟糕了, 對於使用者來說除了完全
情況描述 我們在「【🔒 Python 先修班】教你親手打包專屬套件庫的手作課(pip install…)」有提到如何打包Python讓自己的程式變成套件, 讓其他人可以用pip install的方式進行安裝,😲 But… 我們實際上打包後, 發現到引用的檔案都有被打包進去,但目錄卻未被打包
我們在「【🔒 Python API框架篇 - FastAPI】Ep.1 啟航」有分享 FastAPI 這套API框架, 那麼當我們想要在應用程式剛執行時就註冊一些事件或者共享GPU運算模型、變數…等,當整個應用程式關閉時也進行釋放作業, 這樣的一個週期循環就是所謂的生命週期, 而在FastAPI這
當我們在開發一個AI應用服務時, 常常會需要載入大模型, But… 我們總不可能每一次的請求就載入一次模型吧! 這樣太沒有效率了, 也非常的浪費資源, 因此我們通常會希望應用程式啟動時就能夠載入模型, 之後每一次的請求只要讓模型進行運算即可, 那麼在FastAPI的框架中究竟要如何使用呢? 首
你可能也想看
Google News 追蹤
Thumbnail
在 Python 中,print( ) 函數用於將結果輸出到螢幕上。當你嘗試將不同資料型別(例如字串和數字)混合在一起輸出時,print( )函數無法直接處理這些不同型別的資料,因此你需要先將它們轉換為相同的資料型別。通常,這意味著需要將數字轉換為字串型別,以便與其他字串一同輸出。 雖然我們也可以
Thumbnail
本文利用pyqt5,使用pyttsx3將QLineEdit(單行輸入框)的字串,轉成語音呈現出來。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
這篇文章介紹瞭如何將聲音檔轉換為逐字稿,並且提到了使用雲端硬碟安裝colaboratory的方法。這篇文章指出了逐字稿的重要性,以及如何透過逐字稿做文字呈現方式的轉變。如果你需要處理會議紀錄或聲音檔,這些方法都能幫助你更輕鬆的進行工作。
Thumbnail
f字符串(f-string)在Python 3.6版本引入了新特性,可以更方便地格式化字符串。本文介紹了f-string的基本使用方法,以及表達式、運算符、格式化控制、字典和列表的應用,以及調用方法和函數等。f-string提供了一種更靈活的方式,使你能夠控制字符串的外觀,以滿足不同情況下的需求。
Thumbnail
現代網路發達,音樂串流平台選擇多元,而平台之間又有什麼區別呢?要如何選擇適合自己的平台呢?若有喜歡的音樂人,狂聽他的音樂來衝點擊率能支持到他多少呢?要怎麼讓自己的音樂被串流平台青睞呢?如果你對音樂串流平台也有很多疑惑,歡迎和本篇文章一起探索解答。
Thumbnail
設計程式來讀取欲傳送訊息之參數txt檔案,再利用程式自動傳出訊息至LINE群組。能簡易使用於任何場合。
Thumbnail
欲傳送之內容,由使用者輸入於文字檔內,執行本執行檔後,指定之LINE群組全員,將會收到推播訊息
Thumbnail
在數位時代,為了要應付各種場景和需求,所需要的檔案格式也不盡相同。撇除專用格式不談,日常使用的影音圖片格式,還要為個別種類去安裝對應的編輯軟體步驟多少會有些繁瑣。File Converter可以應付一些簡單的媒體格式轉換,過程中不用開啟任何軟體。可以省去不少步驟。
Thumbnail
在 Python 中,print( ) 函數用於將結果輸出到螢幕上。當你嘗試將不同資料型別(例如字串和數字)混合在一起輸出時,print( )函數無法直接處理這些不同型別的資料,因此你需要先將它們轉換為相同的資料型別。通常,這意味著需要將數字轉換為字串型別,以便與其他字串一同輸出。 雖然我們也可以
Thumbnail
本文利用pyqt5,使用pyttsx3將QLineEdit(單行輸入框)的字串,轉成語音呈現出來。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
這篇文章介紹瞭如何將聲音檔轉換為逐字稿,並且提到了使用雲端硬碟安裝colaboratory的方法。這篇文章指出了逐字稿的重要性,以及如何透過逐字稿做文字呈現方式的轉變。如果你需要處理會議紀錄或聲音檔,這些方法都能幫助你更輕鬆的進行工作。
Thumbnail
f字符串(f-string)在Python 3.6版本引入了新特性,可以更方便地格式化字符串。本文介紹了f-string的基本使用方法,以及表達式、運算符、格式化控制、字典和列表的應用,以及調用方法和函數等。f-string提供了一種更靈活的方式,使你能夠控制字符串的外觀,以滿足不同情況下的需求。
Thumbnail
現代網路發達,音樂串流平台選擇多元,而平台之間又有什麼區別呢?要如何選擇適合自己的平台呢?若有喜歡的音樂人,狂聽他的音樂來衝點擊率能支持到他多少呢?要怎麼讓自己的音樂被串流平台青睞呢?如果你對音樂串流平台也有很多疑惑,歡迎和本篇文章一起探索解答。
Thumbnail
設計程式來讀取欲傳送訊息之參數txt檔案,再利用程式自動傳出訊息至LINE群組。能簡易使用於任何場合。
Thumbnail
欲傳送之內容,由使用者輸入於文字檔內,執行本執行檔後,指定之LINE群組全員,將會收到推播訊息
Thumbnail
在數位時代,為了要應付各種場景和需求,所需要的檔案格式也不盡相同。撇除專用格式不談,日常使用的影音圖片格式,還要為個別種類去安裝對應的編輯軟體步驟多少會有些繁瑣。File Converter可以應付一些簡單的媒體格式轉換,過程中不用開啟任何軟體。可以省去不少步驟。