客戶問我:「音檔容量可以算是token數的一種嗎?」這是一個很好的問題,因為它牽涉到我們如何理解多模態資料輸入與大語言模型的運作原理。
🔁 音檔一定會被轉成文字
首先,目前的大語言模型(如ChatGPT所使用的GPT系列模型)其實「聽不懂」聲音,它必須先透過語音辨識(ASR, Automatic Speech Recognition)技術,把音檔內容轉換成文字,接著再將這些文字轉換成token,才能進入模型中分析與回答問題。
就算你「沒有叫它」轉成逐字稿,模型其實也「默默地」在背景幫你完成了這件事。📦 音檔大小 ≠ token數
那音檔的容量會等於token數嗎?並不一定。雖然有關聯,但不能直接換算。例如,一段高音質的純音樂錄音,可能檔案很大,但實際上幾乎沒有可辨識的語音內容,轉成文字後可能是0個token。反過來,一段錄音品質一般但密集對話的會議紀錄,雖然檔案比較小,卻可能產生數千個token。
甚至我們也可以透過技術,用比較壓縮的方式去錄音,所以同一場會議的錄音檔可以大、可以小,但token數會是差不多的。
🐢 為什麼要研究大音檔的處理?
而跟容量比較有相關的,其實是音檔轉成文字的效率,當檔案越大的時候,要花更多的時間去處理轉檔。所以我們的團隊在研究如何處理更大的音檔,並不是為了讓模型「直接聽懂」音檔,而是希望能更有效地壓縮與處理音訊,讓語音轉文字的速度更快,進而提升整體問答的效率。
📊 想知道文字轉token的方式?
你可以到 OpenAI 官方提供的 Token 計算器試試看,把一段文字貼進去,就能看到怎麼被模型「切」成一段一段的token。
而這邊值得注意的是,不同的模型,對於token數的計算是不同的,不過通常在計算中文字的token數時,會採中文字數*1.2或1.5作為token數量的估算。
👉 https://platform.openai.com/tokenizer
📌 小結
音檔並不是直接被模型讀懂,而是經過「語音轉文字」這一關。真正佔用token的是轉出來的那段文字,而非原始的音檔容量。如果你是用語音跟模型互動,請記得,它其實「先抄下來,再閱讀」。
這樣的轉譯過程,也同樣適用於圖片與影片等多模態資料──它們都會在背景中被轉換成模型可以理解的文字描述,這也是我們說LLM「有耳朵、有眼睛」的比喻背後的技術真相。