小米開源 Xiaomi-MiMo-Audio：首個端到端語音大模型，顛覆語音 AI 的新時代

Mech muse 智慧新知

發佈於中國等個房間

2025/09/19 更新2025/09/19 發佈閱讀 7 分鐘

你好，我是 Mech Muse。今天要帶大家追一條最新的科技新聞：小米在 2025 年 9 月 19 日正式開源了它的首個原生端到端語音大模型 Xiaomi-MiMo-Audio。這不是單純的「小米又發表了一個 AI」，而是可能改變整個語音 AI 生態的事件。本文會帶你了解：

小米這次到底發表了什麼？
它的技術突破在哪裡？
與 Google、OpenAI 等巨頭相比，表現如何？
未來我們會在哪些場景遇到這個模型？

準備好了嗎？讓我們用輕鬆的方式來解析這場「聲音革命」。

小米語音大模型發布：新聞事件與核心亮點

在 2025 年 9 月 19 日，小米正式宣布開源 Xiaomi-MiMo-Audio，這是一個基於 Transformer 架構、擁有 12 億參數（1.2B） 的語音大模型。

raw-image

這個模型的訓練規模相當驚人——小米表示，它使用了 上億小時（hundreds of millions of hours） 的無標注語音數據進行預訓練。換句話說，它聽過的聲音，比我們人生中能聽的所有音樂、對話、廣播加起來還要多。

核心功能包括：

音頻重建：能夠還原甚至修復音頻訊號。
語音轉文字（Speech-to-Text）：更準確的語音識別。
語音理解與對話交互：讓 AI 更懂你的語音意圖。

更特別的是，小米並非只開源模型權重，還同步釋出了 無損壓縮的音頻 Tokenizer、模型結構、訓練方法與完整評測體系。這就好比不是只送你一部車，而是把設計圖、引擎製造流程，甚至測試方法都分享出來。

📍 Mech Muse 觀點 小米的這次發布，不僅是「有了一個新的語音模型」，更是一種戰略動作。開源意味著他們不只要自己玩，還要拉整個生態圈一起推進。這對學術研究者、開發者來說都是一大利多。

技術解析：ICL、涌現與開源設計

如果說新聞發布是舞台上的煙火，那麼技術細節就是煙火背後的火藥配方。這次 Xiaomi-MiMo-Audio 帶來的幾個亮點特別值得注意：

1. In-Context Learning（ICL）在語音領域的突破

過去的語音模型，要學會一個新任務（例如從電話語音中辨識口音），往往需要大量標注數據。但 Xiaomi-MiMo-Audio 引入了 上下文學習（ICL） 能力，意味著它可以用很少的樣本，就能快速適應新的語音任務。

就像是你請朋友幫忙唱卡拉 OK，只要先哼兩句，他就能立刻抓到旋律並跟上。

2. 涌現行為（Emergent Behaviour）

小米在報告中指出，他們在模型訓練過程中觀察到明顯的「涌現行為」。這是 AI 領域的一個熱詞，意思是隨著模型規模與數據量的增長，會自然出現一些設計時沒預料到的能力。

對語音來說，這可能包括：

能自動處理不同口音
在嘈雜環境中依然辨識語音
自主學會一些語音轉換的技巧

這就像養一個小孩，原本只教他說話，結果他自己學會了唱歌。

3. 開源設計與完整生態

Xiaomi-MiMo-Audio 不只釋出模型，還完整開源了：

無損壓縮 Tokenizer：保持音質同時降低計算成本。
模型架構：基於 Transformer，支援多模態擴展。
訓練方法與評測體系：方便其他人驗證與改進。

📍 Mech Muse 觀點 這讓我想到開放樂譜的概念——你不只是給別人聽歌，而是把樂譜、伴奏、甚至錄音軟體都送出去。這種做法，往往能激發更多創意與應用。

與 Google、OpenAI 的對比：性能與競爭力

很多人會問：「小米的這個模型，到底能不能打？」

答案是：至少在公開數據上，它很有看頭。

根據小米公布的測試結果：

在 MMAU（多模態音頻理解） 測試中，Xiaomi-MiMo-Audio 表現超越了 Google Gemini-2.5-Flash。
在 Big Bench Audio S2T（音頻轉文字） 任務上，甚至超過了 OpenAI GPT-4o-Audio-Preview。

換句話說，這不是單純的「開源玩具」，而是真的能跟國際頂尖模型掰手腕。

不過，我們要冷靜一下。這些測試結果雖然漂亮，但仍有幾個問題需要釐清：

測試語言主要是中文，還是涵蓋多語言？
真實場景中的穩定度如何（例如地鐵、餐廳環境）？
推理效率能不能適合手機端運行？

📍 Mech Muse 觀點 我認為小米的優勢不一定是在「全面性能超越 Google、OpenAI」，而是在 中文語音場景 和 硬體生態整合 上。畢竟小米有手機、智慧家居，甚至汽車，這些裝置都可能成為 Xiaomi-MiMo-Audio 的落地場域。

應用與挑戰：語音 AI 的下一步

1. 應用場景

智慧助手升級：小愛同學將不再只是「接收指令」，而是能跟你對話、理解情感。
即時翻譯：跨語言會議、旅行翻譯器。
多模態互動：結合視覺 AI，讓語音助理「看得懂，也聽得懂」。
無障礙應用：幫助聽障人士進行更自然的語音交流。

2. 面臨挑戰

隱私問題：語音數據涉及個人身份與習慣，如何保護？
安全風險：語音 Deepfake 的濫用可能更容易。
資源成本：端到端大模型的計算需求高，是否能真正落地在手機或 IoT 裝置？

📍 Mech Muse 觀點 我覺得這場「語音大模型之戰」就像一場樂團競賽。小米這次拿出的是一把新的樂器——它的聲音夠響亮，但要真正進入主流舞台，還需要解決音質、耐用度，以及如何與其他樂手（應用生態）合奏的問題。

結尾

總結來說，小米這次開源 Xiaomi-MiMo-Audio，不只是科技新聞的一則，而是語音 AI 發展的一個重要里程碑。它展示了：

語音大模型可以具備 ICL 能力，擺脫對大量標注數據的依賴。
開源能推動整個生態加速進步。
在中文場景與硬體整合上，中國廠商有機會走出差異化道路。

未來我們可能會在小米的手機、汽車、智慧家居裡，逐漸體驗到更自然的語音互動。

如果你也對 AI 語音的未來感興趣，別忘了追蹤我——Mech Muse。我會繼續用最輕鬆的方式，陪你聊最新的科技趨勢。

Mech muse 智慧新知AI人工智慧Mech muse 智慧新知中國

留言

留言分享你的想法！

Mech muse 智慧新知

20會員

270內容數

27歲的剛畢業碩士生，所以創立這個部落格分享科技最新趨勢，目前寫人型機器人、AI人工智慧、小型核能SMR。透過文字與照片，我希望與你們一同暢想智能時代的可能性，歡迎加入這場科技之旅！

Mech muse 智慧新知的其他內容

2025/09/18

🌏中國小型核能SMR大突破：從「玲瓏一號」到釷基熔鹽反應爐，未來能源新棋局

中國正在加速推進小型模組化核能反應爐（SMR），從即將落地的「玲瓏一號」到已商轉的高溫氣冷堆，再到前沿的釷基熔鹽實驗堆，正重新定義核能的未來。讀完這篇文章，你將了解中國如何透過SMR搶佔全球能源新賽局，以及這對能源轉型與減碳的啟示。

2025/09/18

🌏中國小型核能SMR大突破：從「玲瓏一號」到釷基熔鹽反應爐，未來能源新棋局

中國正在加速推進小型模組化核能反應爐（SMR），從即將落地的「玲瓏一號」到已商轉的高溫氣冷堆，再到前沿的釷基熔鹽實驗堆，正重新定義核能的未來。讀完這篇文章，你將了解中國如何透過SMR搶佔全球能源新賽局，以及這對能源轉型與減碳的啟示。

2025/09/17

🎶 全球首支人形機器人樂隊誕生！從「超人樂隊」看超能機器人的科技野心與未來應用

在長沙「2025 互聯網嶽麓大會」上，全球首支人形機器人樂隊「超人樂隊」驚艷登場！本文帶你了解它的技術亮點、幕後推手超能機器人公司、未來應用場景，以及人形機器人如何走上文化舞台。讀完，你將知道：機器人不只會工作，還能跟你合奏一首歌！ 🎶🤖

2025/09/17

🎶 全球首支人形機器人樂隊誕生！從「超人樂隊」看超能機器人的科技野心與未來應用

在長沙「2025 互聯網嶽麓大會」上，全球首支人形機器人樂隊「超人樂隊」驚艷登場！本文帶你了解它的技術亮點、幕後推手超能機器人公司、未來應用場景，以及人形機器人如何走上文化舞台。讀完，你將知道：機器人不只會工作，還能跟你合奏一首歌！ 🎶🤖

2025/09/15

阿里巴巴注資 X Square Robot：加速具身 AI 與人形機器人的全球賽局 🤖💰

阿里巴巴豪砸 1.4 億美元投資深圳新創 X Square Robot，押注具身 AI 與人形機器人未來。從開源模型 WALL-OSS 到 Quanta X2 機器人，他們想在三到五年內把價格壓到 1 萬美元，走進家庭與全球市場。這是一場資本、技術與未來生活方式的賽跑。

2025/09/15

阿里巴巴注資 X Square Robot：加速具身 AI 與人形機器人的全球賽局 🤖💰

阿里巴巴豪砸 1.4 億美元投資深圳新創 X Square Robot，押注具身 AI 與人形機器人未來。從開源模型 WALL-OSS 到 Quanta X2 機器人，他們想在三到五年內把價格壓到 1 萬美元，走進家庭與全球市場。這是一場資本、技術與未來生活方式的賽跑。

#AI 的其他內容

出鞘的雙面刃：AI

目前共 12589 篇

快半拍成長日誌

程式小白的自動化初體驗：LINE 傳照片自動寄到 Gmail

偽命名培養體

[應用] iOS 26 要來啦！｜Beta 版使用期間速記

嫚嫚的顯化療癒之道

NotebookLM完整教學：從零到一，讓你從新手變高手

你可能也想看

小芝女看天下

用文字創造旅行基金：我的蝦皮分潤計畫體驗

蝦皮分潤計畫讓我在分享旅遊文章時，也能透過推薦好物累積被動收入，貼補旅行基金。這篇文章，除了介紹計畫的操作亮點與心得，也分享我最常應用的案例：「旅行必備小物 TOP5」，包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋，幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你，千萬別錯過！

#出國旅行必備小物#旅行必備清單#長途旅行行李怎麼帶

2025/09/13

小芝女看天下

用文字創造旅行基金：我的蝦皮分潤計畫體驗

蝦皮分潤計畫讓我在分享旅遊文章時，也能透過推薦好物累積被動收入，貼補旅行基金。這篇文章，除了介紹計畫的操作亮點與心得，也分享我最常應用的案例：「旅行必備小物 TOP5」，包含行李鎖、免洗內衣褲、分裝瓶、折疊衣架與真空壓縮袋，幫助出國打包更輕鬆。想同時記錄旅行、分享好物又創造額外收入的你，千萬別錯過！

#出國旅行必備小物#旅行必備清單#長途旅行行李怎麼帶

2025/09/13

蝦皮分潤計畫｜申請、操作教學，輕鬆賺取被動收入！

想增加被動收入？加入蝦皮分潤計畫是輕鬆上手的好方法！本文提供完整教學，包含申請流程、賺取分潤技巧，以及實際使用心得分享，助你輕鬆獲得額外收入。

#蝦皮分潤計畫#蝦皮分潤#蝦皮分潤計畫是什麼

2025/09/12

蝦皮分潤計畫｜申請、操作教學，輕鬆賺取被動收入！

想增加被動收入？加入蝦皮分潤計畫是輕鬆上手的好方法！本文提供完整教學，包含申請流程、賺取分潤技巧，以及實際使用心得分享，助你輕鬆獲得額外收入。

#蝦皮分潤計畫#蝦皮分潤#蝦皮分潤計畫是什麼

2025/09/12

雷神快修的沙龍

Mac 引入AI 技術！蘋果計畫年底發表M4 晶片整合人工智慧

根據報導指出，蘋果將於2024年底開始使用 M4 晶片更新其 Mac產品線。 M4晶片將專注於提高人工智慧功能的效能。該報導指出去年，蘋果在2023年10月一次性推出了 M3、M3 Pro 和 M3 Max 晶片，因此將有可能看到 M4 系列在同一時間段推出。 Gurman 表示，M4

2024/08/14

雷神快修的沙龍

Mac 引入AI 技術！蘋果計畫年底發表M4 晶片整合人工智慧

根據報導指出，蘋果將於2024年底開始使用 M4 晶片更新其 Mac產品線。 M4晶片將專注於提高人工智慧功能的效能。該報導指出去年，蘋果在2023年10月一次性推出了 M3、M3 Pro 和 M3 Max 晶片，因此將有可能看到 M4 系列在同一時間段推出。 Gurman 表示，M4

2024/08/14

Baozilla, Let's go!

20240729_TechNEws

蘋果跨入生成式AI的時間比對手晚，雖然該公司已開發出小型AI模型，但較複雜或特殊的任務，仍希望交由AI夥伴接手。蘋果軟體負責人Craig Federighi先前表示，該公司希望一開始就提供最優秀選項；ChatGPT是蘋果用戶當今的最佳選擇。他並說，蘋果也想整合Google AI模型「Gemini」

2024/07/29

Baozilla, Let's go!

20240729_TechNEws

蘋果跨入生成式AI的時間比對手晚，雖然該公司已開發出小型AI模型，但較複雜或特殊的任務，仍希望交由AI夥伴接手。蘋果軟體負責人Craig Federighi先前表示，該公司希望一開始就提供最優秀選項；ChatGPT是蘋果用戶當今的最佳選擇。他並說，蘋果也想整合Google AI模型「Gemini」

2024/07/29

M大_峰谷之間

美光 (MU) 財報解讀 - Q3 FY24

未來將新增 AI & 半導體巨頭財報之個人解讀。

2024/06/27

M大_峰谷之間

美光 (MU) 財報解讀 - Q3 FY24

未來將新增 AI & 半導體巨頭財報之個人解讀。

2024/06/27

科技巨頭解碼

蘋果 AI - Apple Intelligence 之我見，兼談如何了解 Apple 這家公司 | 科技巨頭邀稿#4

採用大型語言模型的生成式 AI，是在前年年底 ChatGPT 推出後開始成為話題的，之後各家大廠紛紛推出多種競品，相信各位也都用過，也經歷過去年一整年的 AI hype。但同一時間，大家也都在問：Apple 在幹嘛？

#蘋果#AI#Apple

2024/06/12

科技巨頭解碼

蘋果 AI - Apple Intelligence 之我見，兼談如何了解 Apple 這家公司 | 科技巨頭邀稿#4

採用大型語言模型的生成式 AI，是在前年年底 ChatGPT 推出後開始成為話題的，之後各家大廠紛紛推出多種競品，相信各位也都用過，也經歷過去年一整年的 AI hype。但同一時間，大家也都在問：Apple 在幹嘛？

#蘋果#AI#Apple

2024/06/12

財經咖啡因的窩

每日的財經咖啡因

蘋果發表會已經大概講述全新的系統主要就是Apple Intelligence 全新的個人智慧系統總結就是AI的輔助可以讓生活想像擴大到哪個階段就是市場的共鳴這次第二季收尾的題材也就是蘋果手機的AI功能想像 2022~2024第一季都是摺疊手機的想像,主要是成長性爆發最容易算數學,這

#蘋果#AI#手機

2024/06/10

財經咖啡因的窩

每日的財經咖啡因

蘋果發表會已經大概講述全新的系統主要就是Apple Intelligence 全新的個人智慧系統總結就是AI的輔助可以讓生活想像擴大到哪個階段就是市場的共鳴這次第二季收尾的題材也就是蘋果手機的AI功能想像 2022~2024第一季都是摺疊手機的想像,主要是成長性爆發最容易算數學,這

#蘋果#AI#手機

2024/06/10

自由豐盛社群 Glowing Up

AI 趨勢：翻譯耳機、健身教練、音樂創作

本週 AI 趨勢帶來了三個超酷的黑科技，包括語言翻譯耳機、AI 教練和 AI 音樂製作工具。這些創新科技幫助解決語言溝通、健身指導和音樂創作等問題，是數據、人工智慧和科技的未來。快來瞭解如何應用這些科技，打造更豐富的生活體驗吧！

#語言#ChatGPT#翻譯

2024/05/20

自由豐盛社群 Glowing Up

AI 趨勢：翻譯耳機、健身教練、音樂創作

本週 AI 趨勢帶來了三個超酷的黑科技，包括語言翻譯耳機、AI 教練和 AI 音樂製作工具。這些創新科技幫助解決語言溝通、健身指導和音樂創作等問題，是數據、人工智慧和科技的未來。快來瞭解如何應用這些科技，打造更豐富的生活體驗吧！

#語言#ChatGPT#翻譯

2024/05/20

GPT工作術｜與你一起補給工作的AI能量沙龍

誼郎開源不是說假的！可再開發、可商用的Grok-1開源了，將改變什麼？

人工智慧（AI）發展一日千里，年初OpenAI的Sora，三月初Anthropic的Cloude3，都為未來科技的創想帶來震撼。Elon Musk的X AI公司將他們的大型語言模型Grok-1開源，不僅展現了對AI技術開放共享的承諾，也預示著行業未來可能也會有不同於資本競爭、算力對抗的新發展方向。

#OpenAI#模型#GPT-4

2024/03/20

GPT工作術｜與你一起補給工作的AI能量沙龍

誼郎開源不是說假的！可再開發、可商用的Grok-1開源了，將改變什麼？

人工智慧（AI）發展一日千里，年初OpenAI的Sora，三月初Anthropic的Cloude3，都為未來科技的創想帶來震撼。Elon Musk的X AI公司將他們的大型語言模型Grok-1開源，不僅展現了對AI技術開放共享的承諾，也預示著行業未來可能也會有不同於資本競爭、算力對抗的新發展方向。

#OpenAI#模型#GPT-4

2024/03/20

曼徹的矽谷旅記 Mencher’s Travelogue

2024：On-Device AI 發展到哪？

2024 年，AI Boom 的第二年，我們總算可以撥開 AI 迷霧，逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化，Google Gemini Nano 正式部署上手機，Apple 也發布最新論文彎道超車，改變了手機 AI 的未來發展。

#DRAM#Pixel 8 Pro#模型

2024/02/15

曼徹的矽谷旅記 Mencher’s Travelogue

2024：On-Device AI 發展到哪？

2024 年，AI Boom 的第二年，我們總算可以撥開 AI 迷霧，逐一聊聊大型語言模型 (LLM) 的實際應用。On-Device AI 正快速進化，Google Gemini Nano 正式部署上手機，Apple 也發布最新論文彎道超車，改變了手機 AI 的未來發展。

#DRAM#Pixel 8 Pro#模型

2024/02/15

咖啡因學習教室

2024 讓你 8分鐘懂機器學習： 01 機器學習 vs 人工智慧

2023年被世人稱做生成式AI世代的元年，各式各樣的AI工具不斷湧現，改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識，以及各種人工智慧和機器學習的實現方法。

#人工智慧#生成式AI#機器學習

2024/01/31

咖啡因學習教室

2024 讓你 8分鐘懂機器學習： 01 機器學習 vs 人工智慧

2023年被世人稱做生成式AI世代的元年，各式各樣的AI工具不斷湧現，改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識，以及各種人工智慧和機器學習的實現方法。

#人工智慧#生成式AI#機器學習

2024/01/31

AI元年後語言模型發展的改變

2023年底以來，語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面，這些變化似乎意味著語言模型的發展受到了人為的控制和限制。

#AI#ChatGPT#Podcast

2024/01/26

AI元年後語言模型發展的改變

2023年底以來，語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面，這些變化似乎意味著語言模型的發展受到了人為的控制和限制。

#AI#ChatGPT#Podcast

2024/01/26

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News