Mistral AI 推出 Voxtral:開源語音模型,挑戰 AI 語音市場的價格與性能

更新 發佈閱讀 5 分鐘

法國 AI 新創 Mistral AI 繼參與大型語言模型領域後,於 2025 年 7 月 15 日也正式發布其首個開源語音模型家族—— Voxtral。Voxtral 不僅宣稱在性能上超越市場領導者,更以極具競爭力的成本效益,為企業與開發者帶來了前所未有的自由度。讓TN科技筆記帶你一探究竟。

vocus|新世代的創作平台

Voxtral

Voxtral:不止是語音轉文字

Voxtral 的定位不僅僅是一個簡單的語音轉文字(ASR)工具。它是一個完整的「語音理解模型家族」,它不只能將語音內容轉換成文字,更能進一步理解文字背後的語義,並執行相關任務。

兩種模型,多元應用

為滿足不同規模與部署環境的需求,Voxtral 提供了兩個核心模型變體,且均以 Apache 2.0 許可證開源:

  • Voxtral Small (24B 參數):專為生產級應用設計,適用於處理大規模數據或需要極致性能的場景。
  • Voxtral Mini (3B 參數):針對本地與邊緣設備部署,讓資源受限的環境也能享受到高品質的語音 AI 服務。此外,Mistral AI 還提供了一個專門優化的 Voxtral Mini Transcribe API,其重點在於提供成本效益極高的語音轉錄服務,起價僅為每分鐘 0.001 美元。

挑戰巨頭:性能與價格的雙重優勢

Voxtral 最引人注目的地方在於其宣稱的卓越性能與低廉成本。根據官方資料,Voxtral 不僅在 LibriSpeech、Mozilla Common Voice 和 FLEURS 等基準測試中,全面超越了 OpenAI 的 Whisper large-v3、GPT-4o mini Transcribe 以及 Google 的 Gemini 2.5 Flash,在英文和多種歐洲語言中都取得了最先進的成果。更重要的是,Voxtral Mini Transcribe API 宣稱能以不到 Whisper 一半的價格,提供更高的轉錄性能。這種「更高性能、更低成本」的組合,將對現有的語音服務市場構成巨大壓力。

vocus|新世代的創作平台

Voxtral

Voxtral:核心亮點技術

超長上下文理解能力

現代 AI 應用越來越需要處理長時間的語音內容,例如會議錄音、播客節目等。Voxtral 在這方面表現出色,它擁有 32k token 的上下文長度,能夠處理最長達 30 分鐘的語音轉錄,或 40 分鐘的語音理解任務。讓模型能夠更好理解長篇語音中的語義連貫性,避免了傳統短語音模型拼接後可能出現的語義割裂問題。

原生多語言支援與內建智慧

Voxtral 具備自動語言檢測能力,並支援包括英語、西班牙語、法語、葡萄牙語、印地語、德語、荷蘭語和義大利語在內的多種全球常用語言。更令人興奮的是,Voxtral 還內建了問答(Q&A)和摘要功能,用戶可以直接針對音頻內容提問或生成結構化摘要,無需額外串聯獨立的語言模型,大大簡化了開發流程。甚至,它還支援「功能調用」(Function calling),能夠通過語音命令觸發後端 API 調用,為語音控制應用開啟了更多可能性。

開放性與企業級部署

作為 Mistral AI 的產品,Voxtral 延續了其開源策略。開發者可以自由在 Hugging Face 上下載並運行模型。同時,Mistral AI 也提供了其 Le Chat 聊天機器人和 API 接口,方便用戶進行試用和整合。對於企業用戶,Mistral AI 還提供私人部署支持和行業特定微調服務,確保 Voxtral 能夠完美適應各種複雜的商業需求,同時也能夠保有資料隱私的自主權。

TN科技筆記的觀點

  • 開源策略的強大破壞力: 在語音 AI 領域,高品質模型長期以來被專有技術壟斷。Mistral AI 的開源策略,配合其聲稱的領先性能和極低成本,將極大地降低企業和開發者應用語音 AI 的門檻。
  • 「端到端」語音理解能力: Voxtral 不僅是轉文字,更包含了語義理解、問答、摘要甚至功能調用,這是一個重要的趨勢。它意味著開發者不再需要費力地將 ASR 輸出與一個獨立的 LLM 結合,能夠更直接地從語音輸入中提取價值,大大簡化了複雜語音應用開發的流程。
  • 性能與成本的黃金交叉: 如果 Voxtral 確實能在實際應用中維持其在基準測試中的領先性能,同時提供比現有巨頭更低的成本,它將成為市場上最具吸引力的語音 AI 解決方案之一。

支持TN科技筆記,與科技共同前行

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡

在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!

留言
avatar-img
TN科技筆記(TechNotes)的沙龍
73會員
254內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/07/18
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
2025/07/18
OpenAI 於 2025 年 7 月 17 日發布了 ChatGPT Agent,不僅整合了過往模型的優勢,更賦予 AI 前所未有的「代理人」能力,讓TN科技筆記帶你看看本次發布會的重點!
Thumbnail
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
2025/07/11
xAI 最新推出的 AI 模型 Grok 4於 2025 年 7 月 10 日發布,直指 OpenAI 的 ChatGPT 和 Google 的 Gemini,TN科技筆記立刻帶各位看看本次的線上發布會重點!
2025/07/09
TN科技筆記帶各位解析AI教母李飛飛的最新洞見。從引爆深度學習革命的 ImageNet,到她全力投入的「空間智慧」。了解為何理解 3D 世界比語言模型更難,以及它如何成為通往 AGI 的關鍵拼圖。
2025/07/09
TN科技筆記帶各位解析AI教母李飛飛的最新洞見。從引爆深度學習革命的 ImageNet,到她全力投入的「空間智慧」。了解為何理解 3D 世界比語言模型更難,以及它如何成為通往 AGI 的關鍵拼圖。
看更多
你可能也想看
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
生成式AI對話機器人產業市場預計在2030年達到36.2億美元。目前醫療保健、製造業、零售業與金融相關組織是採用生成式AI對話機器人的領先產業。文章介紹利用AI對話機器人(GeniAltX)能幫助個人及企業提升效率的情境與案例。企業正利用AI打造對話機器人,成為客戶服務或企業內部助理的關鍵角色。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
當時間變少之後,看戲反而變得更加重要——這是在成為母親之後,我第一次誠實地面對這一件事:我沒有那麼多的晚上,可以任性地留給自己了。看戲不再只是「今天有沒有空」,而是牽動整個週末的結構,誰應該照顧孩子,我該在什麼時間回到家,隔天還有沒有精神帶小孩⋯⋯於是,我不得不學會一件以前並不擅長的事:挑選。
Thumbnail
先前有消息指出,為了將低對外購 AI 晶片的依賴,微軟投資支持的生成式 AI 應用大廠 OpenAI 已經開始自行設計與生產相關晶片的計畫,並且已經接觸了包括博通 (Broadcom) 等多家晶片大廠。
Thumbnail
先前有消息指出,為了將低對外購 AI 晶片的依賴,微軟投資支持的生成式 AI 應用大廠 OpenAI 已經開始自行設計與生產相關晶片的計畫,並且已經接觸了包括博通 (Broadcom) 等多家晶片大廠。
Thumbnail
這是我新嘗試的專案「AI 趨勢」,把每週世界各地發生的有趣科技新知,以輕鬆易懂的方式和你分享。本文介紹了兩個超酷的AI神器,分別是秒懂TikTok潮語的Brainrot Translator和由AI打造你的專屬香水,讓你創造自己的獨特香氣。如果你對這些主題感興趣,歡迎在下方留言告訴我。
Thumbnail
這是我新嘗試的專案「AI 趨勢」,把每週世界各地發生的有趣科技新知,以輕鬆易懂的方式和你分享。本文介紹了兩個超酷的AI神器,分別是秒懂TikTok潮語的Brainrot Translator和由AI打造你的專屬香水,讓你創造自己的獨特香氣。如果你對這些主題感興趣,歡迎在下方留言告訴我。
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
見諸參與鄧伯宸口述,鄧湘庭於〈那個大霧的時代〉記述父親回憶,鄧伯宸因故遭受牽連,而案件核心的三人,在鄧伯宸記憶裡:「成立了成大共產黨,他們製作了五星徽章,印刷共產黨宣言——刻鋼板的——他們收集中共空飄的傳單,以及中國共產黨中央委員會有關文化大革命決議文的英文打字稿,另外還有手槍子彈十發。」
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
當代名導基里爾.賽勒布倫尼科夫身兼電影、劇場與歌劇導演,其作品流動著強烈的反叛與詩意。在俄烏戰爭爆發後,他持續以創作回應專制體制的壓迫。《傳奇:帕拉贊諾夫的十段殘篇》致敬蘇聯電影大師帕拉贊諾夫。本文作者透過媒介本質的分析,解構賽勒布倫尼科夫如何利用影劇雙棲的特質,在荒謬世道中尋找藝術的「生存之道」。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
即將舉辦的2024 COMPUTEX Forum將聚集全球科技領袖,共同探討生成式 AI 的未來發展,也代表臺灣在全球 AI 產業中的重要地位。文章也特別介紹了GeniAuto_X應用在企業內部(業務及行銷部門)和外部客服的生成式AI對話機器人,有助於臺灣企業與生成式AI的接軌,提升整體運營效率。
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
OpenAI近期公開了名為「Voice Engine(語音引擎)」的AI模型,使用者只要輸入文字與15秒的音訊樣本,該模型便會自動生成與原說話者相似的語音訊息。AI擬聲,也就是大家常說的聲音克隆(Voice Cloning),這項技術發展迅速,讓我們可以輕易複製一個人的聲音,產生合成語音
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
5 月,方格創作島正式開島。這是一趟 28 天的創作旅程。活動期間,每週都會有新的任務地圖與陪跑計畫,從最簡單的帳號使用、沙龍建立,到帶著你從一句話、一張照片開始,一步一步找到屬於自己的創作節奏。不需要長篇大論,不需要完美的文筆,只需要帶上你今天的日常,就可以出發。征服創作島,抱回靈感與大獎!
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
Thumbnail
擁有科技媒體《The Verge》、遊戲媒體《Polygon》與美食網站的《Eater》的 Vox Media,五月底時宣布跟 OpenAI 簽署內容許可協議,允許 OpenAI 存取旗下新聞網站的所有內容,並且用於訓練 ChatGPT 和其他 AI 模型。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
Thumbnail
合成聲音技術的未來充滿希望,也存在挑戰。OpenAI呼籲社會各界一起加強對這一新興技術的認識,並共同探索如何有效地利用這項技術,同時保護公眾免受潛在的負面影響。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News