你以為AI會「聽」？別再誤會了！AI聽你說話其實是這樣運作的

2025/05/02 更新2025/05/02 發佈閱讀 3 分鐘

客戶問我：「音檔容量可以算是token數的一種嗎？」這是一個很好的問題，因為它牽涉到我們如何理解多模態資料輸入與大語言模型的運作原理。

🔁 音檔一定會被轉成文字

首先，目前的大語言模型（如ChatGPT所使用的GPT系列模型）其實「聽不懂」聲音，它必須先透過語音辨識（ASR, Automatic Speech Recognition）技術，把音檔內容轉換成文字，接著再將這些文字轉換成token，才能進入模型中分析與回答問題。

就算你「沒有叫它」轉成逐字稿，模型其實也「默默地」在背景幫你完成了這件事。

📦 音檔大小 ≠ token數

那音檔的容量會等於token數嗎？並不一定。雖然有關聯，但不能直接換算。例如，一段高音質的純音樂錄音，可能檔案很大，但實際上幾乎沒有可辨識的語音內容，轉成文字後可能是0個token。反過來，一段錄音品質一般但密集對話的會議紀錄，雖然檔案比較小，卻可能產生數千個token。

甚至我們也可以透過技術，用比較壓縮的方式去錄音，所以同一場會議的錄音檔可以大、可以小，但token數會是差不多的。

🐢 為什麼要研究大音檔的處理？

而跟容量比較有相關的，其實是音檔轉成文字的效率，當檔案越大的時候，要花更多的時間去處理轉檔。所以我們的團隊在研究如何處理更大的音檔，並不是為了讓模型「直接聽懂」音檔，而是希望能更有效地壓縮與處理音訊，讓語音轉文字的速度更快，進而提升整體問答的效率。

📊 想知道文字轉token的方式？

你可以到 OpenAI 官方提供的 Token 計算器試試看，把一段文字貼進去，就能看到怎麼被模型「切」成一段一段的token。

而這邊值得注意的是，不同的模型，對於token數的計算是不同的，不過通常在計算中文字的token數時，會採中文字數*1.2或1.5作為token數量的估算。

👉 https://platform.openai.com/tokenizer

📌 小結

音檔並不是直接被模型讀懂，而是經過「語音轉文字」這一關。真正佔用token的是轉出來的那段文字，而非原始的音檔容量。如果你是用語音跟模型互動，請記得，它其實「先抄下來，再閱讀」。

這樣的轉譯過程，也同樣適用於圖片與影片等多模態資料──它們都會在背景中被轉換成模型可以理解的文字描述，這也是我們說LLM「有耳朵、有眼睛」的比喻背後的技術真相。

留言

留言分享你的想法！

光淺JY的沙龍

11會員

48內容數

所有人都有生而為人的致命缺陷，每一個人都可以被分類，而我歌頌每一個人，因為我選擇善良。讓我偷偷跟你說，100種他們的故事。

光淺JY的沙龍的其他內容

2025/04/21

ChatGPT付費也危險？設定沒關，你的資料可能被AI拿去訓練！

許多ChatGPT付費用戶誤以為已確保資料安全，卻忽略關閉「為所有人改善模型」設定，導致輸入資料仍可能被OpenAI用於訓練模型。本文提醒用戶務必檢查並關閉此設定，並建議去識別化敏感資料及避免上傳機密資訊，以確保資料安全。

2025/04/21

ChatGPT付費也危險？設定沒關，你的資料可能被AI拿去訓練！

2025/04/16

AI繪圖工具大比拚，什麼叫做模型聽不聽得懂你講話（GPT-4o、Gemini、Copilot）（越南國際志工行前準備）

本文比較了三個AI繪圖工具：GPT-4o、Gemini和Copilot在生成食譜圖片方面的表現，發現GPT-4o最能理解指令，生成圖片最符合要求，但運行時間較長且使用次數受限；Gemini和Copilot雖然運行速度快，但生成的圖片經常出現錯誤或與指令不符的情況，例如將冬瓜與哈密瓜混淆。

2025/04/16

AI繪圖工具大比拚，什麼叫做模型聽不聽得懂你講話（GPT-4o、Gemini、Copilot）（越南國際志工行前準備）

2025/04/01

AI繪圖工具選擇3步驟：特定需求先行、UI次之、模型聽得懂話就好

選擇適合的付費AI繪圖工具，關鍵不在於比較模型性能，而在於滿足實際需求、順手的UI介面以及有效的溝通。文章提供三步驟方法論：釐清特定需求（如私密生成、版權考量、文字排版、局部重繪、向量圖輸出），免費試用，找到順手的UI，最後選擇能理解你prompt的模型。

2025/04/01

AI繪圖工具選擇3步驟：特定需求先行、UI次之、模型聽得懂話就好

#AI 的其他內容

NotebookLM 視覺敘事再升級：資訊圖表與簡報製作登場

普普文創

【踏青漫步】剪刀石山 258公尺

林位青的沙龍

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

你可能也想看

生命剪輯師的沙龍

面對AI的進化

遇到故障申告或客服問題時，經常需要與語音系統對話，但這樣的狀況只會越來越多。這篇文章描述了作者與AI語音系統的故障申告對話過程，以及對未來科技與人性關係的思考。作者透過個人經驗探討了人與機器的互動，以及可能面臨的情感抽離和機械化。透過文章，探討了AI是否在訓練和影響人類，最終進化人類的人性。

2024/07/04

2024/07/04

　　在 AI 應用中，圖像、語音、文字三種可以說是主要應用，其中我一直以來都是專注於圖像上的研究，對於另兩種僅止於淺嚐，接下來就往音訊上研究看看，先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用，那麼，就讓我們開始吧。

2024/05/24

2024/05/24

筆記-曲博談AI模型.群聯-24.05.05

筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型三個步驟: 1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。 2.微調(

2024/05/06

每日發車

筆記-曲博談AI模型.群聯-24.05.05

2024/05/06

逍遙資訊

Free text to speech 免費文字轉語音

免費文字轉語音（Free text to speech）免費的線上語音合成工具，使用微軟 AI 語音庫生成仿真人語音，支援 129 種語言，提供三百多種聲音，輸入文本即可線上聆聽和下載 MP3 檔案。

#文字轉語音#TTS#免費服務

2024/04/23

逍遙資訊

Free text to speech 免費文字轉語音

#文字轉語音#TTS#免費服務

2024/04/23

GPT工作術｜與你一起補給工作的AI能量沙龍

什麼是「Voice Cloning」？ AI擬聲的影響與爭議

OpenAI近期公開了名為「Voice Engine（語音引擎）」的AI模型，使用者只要輸入文字與15秒的音訊樣本，該模型便會自動生成與原說話者相似的語音訊息。AI擬聲，也就是大家常說的聲音克隆（Voice Cloning），這項技術發展迅速，讓我們可以輕易複製一個人的聲音，產生合成語音

#智慧財產權#法律#OpenAI

2024/04/08

GPT工作術｜與你一起補給工作的AI能量沙龍

什麼是「Voice Cloning」？ AI擬聲的影響與爭議

#智慧財產權#法律#OpenAI

2024/04/08

一二三的沙龍

合成聲音技術的機遇與挑戰探索

合成聲音技術的未來充滿希望，也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識，並共同探索如何有效地利用這項技術，同時保護公眾免受潛在的負面影響。

#合成聲音#人工智能#VoiceEngine

2024/04/02

一二三的沙龍

合成聲音技術的機遇與挑戰探索

#合成聲音#人工智能#VoiceEngine

2024/04/02

技術PM路易斯的沙龍

情緒勒索你的AI來得到最佳的結果

這陣子使用AI模型，還有參考國內外一些喜歡玩語言模型的同好發文，一個很有趣的結論就是，有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通，會得到比較好的結果，這的確是非常反直覺的，也就是說很多時候ChatGPT耍懶不肯工作的時候，你用加油打氣，或是情緒勒索的方法，確實是可以得到比較好的結果。

#chatgpt#LLM#AI

2024/03/31