Mistral AI 推出 Voxtral:開源語音模型,挑戰 AI 語音市場的價格與性能

更新 發佈閱讀 5 分鐘

法國 AI 新創 Mistral AI 繼參與大型語言模型領域後,於 2025 年 7 月 15 日也正式發布其首個開源語音模型家族—— Voxtral。Voxtral 不僅宣稱在性能上超越市場領導者,更以極具競爭力的成本效益,為企業與開發者帶來了前所未有的自由度。讓TN科技筆記帶你一探究竟。

raw-image

Voxtral

Voxtral:不止是語音轉文字

Voxtral 的定位不僅僅是一個簡單的語音轉文字(ASR)工具。它是一個完整的「語音理解模型家族」,它不只能將語音內容轉換成文字,更能進一步理解文字背後的語義,並執行相關任務。

兩種模型,多元應用

為滿足不同規模與部署環境的需求,Voxtral 提供了兩個核心模型變體,且均以 Apache 2.0 許可證開源:

  • Voxtral Small (24B 參數):專為生產級應用設計,適用於處理大規模數據或需要極致性能的場景。
  • Voxtral Mini (3B 參數):針對本地與邊緣設備部署,讓資源受限的環境也能享受到高品質的語音 AI 服務。此外,Mistral AI 還提供了一個專門優化的 Voxtral Mini Transcribe API,其重點在於提供成本效益極高的語音轉錄服務,起價僅為每分鐘 0.001 美元。

挑戰巨頭:性能與價格的雙重優勢

Voxtral 最引人注目的地方在於其宣稱的卓越性能與低廉成本。根據官方資料,Voxtral 不僅在 LibriSpeech、Mozilla Common Voice 和 FLEURS 等基準測試中,全面超越了 OpenAI 的 Whisper large-v3、GPT-4o mini Transcribe 以及 Google 的 Gemini 2.5 Flash,在英文和多種歐洲語言中都取得了最先進的成果。更重要的是,Voxtral Mini Transcribe API 宣稱能以不到 Whisper 一半的價格,提供更高的轉錄性能。這種「更高性能、更低成本」的組合,將對現有的語音服務市場構成巨大壓力。

raw-image

Voxtral

Voxtral:核心亮點技術

超長上下文理解能力

現代 AI 應用越來越需要處理長時間的語音內容,例如會議錄音、播客節目等。Voxtral 在這方面表現出色,它擁有 32k token 的上下文長度,能夠處理最長達 30 分鐘的語音轉錄,或 40 分鐘的語音理解任務。讓模型能夠更好理解長篇語音中的語義連貫性,避免了傳統短語音模型拼接後可能出現的語義割裂問題。

原生多語言支援與內建智慧

Voxtral 具備自動語言檢測能力,並支援包括英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語和義大利語在內的多種全球常用語言。更令人興奮的是,Voxtral 還內建了問答(Q&A)和摘要功能,用戶可以直接針對音頻內容提問或生成結構化摘要,無需額外串聯獨立的語言模型,大大簡化了開發流程。甚至,它還支援「功能調用」(Function calling),能夠通過語音命令觸發後端 API 調用,為語音控制應用開啟了更多可能性。

開放性與企業級部署

作為 Mistral AI 的產品,Voxtral 延續了其開源策略。開發者可以自由在 Hugging Face 上下載並運行模型。同時,Mistral AI 也提供了其 Le Chat 聊天機器人和 API 接口,方便用戶進行試用和整合。對於企業用戶,Mistral AI 還提供私人部署支持和行業特定微調服務,確保 Voxtral 能夠完美適應各種複雜的商業需求,同時也能夠保有資料隱私的自主權。

TN科技筆記的觀點

  • 開源策略的強大破壞力: 在語音 AI 領域,高品質模型長期以來被專有技術壟斷。Mistral AI 的開源策略,配合其聲稱的領先性能和極低成本,將極大地降低企業和開發者應用語音 AI 的門檻。
  • 「端到端」語音理解能力: Voxtral 不僅是轉文字,更包含了語義理解、問答、摘要甚至功能調用,這是一個重要的趨勢。它意味著開發者不再需要費力地將 ASR 輸出與一個獨立的 LLM 結合,能夠更直接地從語音輸入中提取價值,大大簡化了複雜語音應用開發的流程。
  • 性能與成本的黃金交叉: 如果 Voxtral 確實能在實際應用中維持其在基準測試中的領先性能,同時提供比現有巨頭更低的成本,它將成為市場上最具吸引力的語音 AI 解決方案之一。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
51會員
169內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/07/18
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
2025/07/18
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
2025/07/09
TN科技筆記帶各位解析AI教母李飛飛的最新洞見。從引爆深度學習革命的 ImageNet,到她全力投入的「空間智慧」。了解為何理解 3D 世界比語言模型更難,以及它如何成為通往 AGI 的關鍵拼圖。
2025/07/09
TN科技筆記帶各位解析AI教母李飛飛的最新洞見。從引爆深度學習革命的 ImageNet,到她全力投入的「空間智慧」。了解為何理解 3D 世界比語言模型更難,以及它如何成為通往 AGI 的關鍵拼圖。
看更多
你可能也想看
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
先前有消息指出,為了將低對外購 AI 晶片的依賴,微軟投資支持的生成式 AI 應用大廠 OpenAI 已經開始自行設計與生產相關晶片的計畫,並且已經接觸了包括博通 (Broadcom) 等多家晶片大廠。
Thumbnail
先前有消息指出,為了將低對外購 AI 晶片的依賴,微軟投資支持的生成式 AI 應用大廠 OpenAI 已經開始自行設計與生產相關晶片的計畫,並且已經接觸了包括博通 (Broadcom) 等多家晶片大廠。
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
這是我新嘗試的專案「AI 趨勢」,把每週世界各地發生的有趣科技新知,以輕鬆易懂的方式和你分享。本文介紹了兩個超酷的AI神器,分別是秒懂TikTok潮語的Brainrot Translator和由AI打造你的專屬香水,讓你創造自己的獨特香氣。如果你對這些主題感興趣,歡迎在下方留言告訴我。
Thumbnail
這是我新嘗試的專案「AI 趨勢」,把每週世界各地發生的有趣科技新知,以輕鬆易懂的方式和你分享。本文介紹了兩個超酷的AI神器,分別是秒懂TikTok潮語的Brainrot Translator和由AI打造你的專屬香水,讓你創造自己的獨特香氣。如果你對這些主題感興趣,歡迎在下方留言告訴我。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News