你以為AI會「聽」?別再誤會了!AI聽你說話其實是這樣運作的

更新於 發佈於 閱讀時間約 3 分鐘

客戶問我:「音檔容量可以算是token數的一種嗎?」這是一個很好的問題,因為它牽涉到我們如何理解多模態資料輸入與大語言模型的運作原理。

🔁 音檔一定會被轉成文字

首先,目前的大語言模型(如ChatGPT所使用的GPT系列模型)其實「聽不懂」聲音,它必須先透過語音辨識(ASR, Automatic Speech Recognition)技術,把音檔內容轉換成文字,接著再將這些文字轉換成token,才能進入模型中分析與回答問題。

就算你「沒有叫它」轉成逐字稿,模型其實也「默默地」在背景幫你完成了這件事。

📦 音檔大小 ≠ token數

那音檔的容量會等於token數嗎?並不一定。雖然有關聯,但不能直接換算。例如,一段高音質的純音樂錄音,可能檔案很大,但實際上幾乎沒有可辨識的語音內容,轉成文字後可能是0個token。反過來,一段錄音品質一般但密集對話的會議紀錄,雖然檔案比較小,卻可能產生數千個token。

甚至我們也可以透過技術,用比較壓縮的方式去錄音,所以同一場會議的錄音檔可以大、可以小,但token數會是差不多的。

🐢 為什麼要研究大音檔的處理?

而跟容量比較有相關的,其實是音檔轉成文字的效率,當檔案越大的時候,要花更多的時間去處理轉檔。所以我們的團隊在研究如何處理更大的音檔,並不是為了讓模型「直接聽懂」音檔,而是希望能更有效地壓縮與處理音訊,讓語音轉文字的速度更快,進而提升整體問答的效率。

📊 想知道文字轉token的方式?

你可以到 OpenAI 官方提供的 Token 計算器試試看,把一段文字貼進去,就能看到怎麼被模型「切」成一段一段的token。

而這邊值得注意的是,不同的模型,對於token數的計算是不同的,不過通常在計算中文字的token數時,會採中文字數*1.2或1.5作為token數量的估算。

👉 https://platform.openai.com/tokenizer


📌 小結

音檔並不是直接被模型讀懂,而是經過「語音轉文字」這一關。真正佔用token的是轉出來的那段文字,而非原始的音檔容量。如果你是用語音跟模型互動,請記得,它其實「先抄下來,再閱讀」。

這樣的轉譯過程,也同樣適用於圖片與影片等多模態資料──它們都會在背景中被轉換成模型可以理解的文字描述,這也是我們說LLM「有耳朵、有眼睛」的比喻背後的技術真相。

留言
avatar-img
留言分享你的想法!
avatar-img
光淺JY的沙龍
11會員
47內容數
所有人都有生而為人的致命缺陷,每一個人都可以被分類,而我歌頌每一個人,因為我選擇善良。讓我偷偷跟你說,100種他們的故事。
光淺JY的沙龍的其他內容
2025/04/21
許多ChatGPT付費用戶誤以為已確保資料安全,卻忽略關閉「為所有人改善模型」設定,導致輸入資料仍可能被OpenAI用於訓練模型。本文提醒用戶務必檢查並關閉此設定,並建議去識別化敏感資料及避免上傳機密資訊,以確保資料安全。
Thumbnail
2025/04/21
許多ChatGPT付費用戶誤以為已確保資料安全,卻忽略關閉「為所有人改善模型」設定,導致輸入資料仍可能被OpenAI用於訓練模型。本文提醒用戶務必檢查並關閉此設定,並建議去識別化敏感資料及避免上傳機密資訊,以確保資料安全。
Thumbnail
2025/04/16
本文比較了三個AI繪圖工具:GPT-4o、Gemini和Copilot在生成食譜圖片方面的表現,發現GPT-4o最能理解指令,生成圖片最符合要求,但運行時間較長且使用次數受限;Gemini和Copilot雖然運行速度快,但生成的圖片經常出現錯誤或與指令不符的情況,例如將冬瓜與哈密瓜混淆。
Thumbnail
2025/04/16
本文比較了三個AI繪圖工具:GPT-4o、Gemini和Copilot在生成食譜圖片方面的表現,發現GPT-4o最能理解指令,生成圖片最符合要求,但運行時間較長且使用次數受限;Gemini和Copilot雖然運行速度快,但生成的圖片經常出現錯誤或與指令不符的情況,例如將冬瓜與哈密瓜混淆。
Thumbnail
2025/04/01
選擇適合的付費AI繪圖工具,關鍵不在於比較模型性能,而在於滿足實際需求、順手的UI介面以及有效的溝通。文章提供三步驟方法論:釐清特定需求(如私密生成、版權考量、文字排版、局部重繪、向量圖輸出),免費試用,找到順手的UI,最後選擇能理解你prompt的模型。
2025/04/01
選擇適合的付費AI繪圖工具,關鍵不在於比較模型性能,而在於滿足實際需求、順手的UI介面以及有效的溝通。文章提供三步驟方法論:釐清特定需求(如私密生成、版權考量、文字排版、局部重繪、向量圖輸出),免費試用,找到順手的UI,最後選擇能理解你prompt的模型。
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
遇到故障申告或客服問題時,經常需要與語音系統對話,但這樣的狀況只會越來越多。這篇文章描述了作者與AI語音系統的故障申告對話過程,以及對未來科技與人性關係的思考。作者透過個人經驗探討了人與機器的互動,以及可能面臨的情感抽離和機械化。透過文章,探討了AI是否在訓練和影響人類,最終進化人類的人性。
Thumbnail
遇到故障申告或客服問題時,經常需要與語音系統對話,但這樣的狀況只會越來越多。這篇文章描述了作者與AI語音系統的故障申告對話過程,以及對未來科技與人性關係的思考。作者透過個人經驗探討了人與機器的互動,以及可能面臨的情感抽離和機械化。透過文章,探討了AI是否在訓練和影響人類,最終進化人類的人性。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
筆記-曲博談AI模型.群聯-24.05.05 https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s *大型語言模型 三個步驟: 1.預訓練,訓練一次要用幾萬顆處理器、訓練時間要1個月,ChatGPT訓練一次的成本為1000萬美金。 2.微調(
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
免費文字轉語音(Free text to speech)免費的線上語音合成工具,使用微軟 AI 語音庫生成仿真人語音,支援 129 種語言,提供三百多種聲音,輸入文本即可線上聆聽和下載 MP3 檔案。
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
Thumbnail
本文介紹如何設置OpenAI API密鑰並使用Whisper API轉寫音訊檔案。文章詳細說明了轉寫單個音訊檔案,以及將長音訊分割並轉寫的過程。透過範例演示,讀者可以學習如何將音訊轉寫為文字,提高工作效率。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成,這聽起來很不可思議對吧? 但這就是本篇論文取得的成就,不僅如此,該有的功能,如調整情感,口音節奏,停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文,這會是很有趣的旅程。
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
Thumbnail
ChatGPT最擅長的就是文本處理,用來翻譯字幕應該也是一片蛋糕吧!但實際操作測試,卻發現沒那麼容易,原因是影片翻譯要考量的因素太多包括: ▪️時間戳記對齊 ▪️適合閱讀且中英文對照文句長度 ▪️貼合講者原意語氣風格 ▪️專業術語與專有名詞 還有GPT一次可以處理的資訊量有限,超過
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News