原來哆啦A夢都是真的｜Spoken LLMs帶來的革命

2025/07/26 更新2025/04/13 發佈閱讀 4 分鐘

大家是否想過一個問題：隨著AI的普及化，過去陪伴大家長大的動畫角色「哆啦A夢」，是否可能成真？理論上只要有適合的載體，配合能聽得懂使用者說話的LLMs，「哆啦A夢」的概念就有可能成真！下文將介紹兩個與AI對話的作法，以及我對這個領域的未來看法。

⭐ 主流作法：語音轉文字，使用現有LLMs進行推論

流程如下：

①「語音轉文字」：使用語音辨識系統將語音轉為文字，著名系統為Whisper。

②「將文字餵給LLM」：將轉換後的文字丟給LLM，可依照不同情境餵給ChatGPT, Claude, Grok, Gemini...

③「文字輸出合成語音」：將AI的文字輸出合成語音，著名語音合成系統為ElevenLabs、Google TTS、Azure TTS。

該方法是基於現行大眾常用的LLMs，回覆內容已經相當成熟、準確率高。且整個流程使用不同系統串接，可依不同模組進行優化。

值得注意的是，該架構因為需要切換語音與文字，回覆速度不快。而且在語音轉文字的過程中，可能遺失說話者的語氣，所以如果要應用到真實的對話上，AI 的反應跟速度會讓使用者感覺「不大自然」。

⭐ 理想作法：「會講話的LLM」Spoken LLMs

如果說大型語言模型是基於大量文字訓練出來的 AI 模型，Spoken LLMs可以說是基於大量語音資料訓練出來的 AI 模型，允許使用者直接透過說話的方式，跟 AI 進行溝通。

與第一種方法不同的是，Spoken LLMs 不用透過語音轉文字的方式，能直接分析使用者的語句及語氣，因此理論上Spoken LLMs考慮更多使用者的情感，回覆的速度及內容也會讓使用者認為更自然。

該方法雖然理想，但由於訓練資料不易取得、需要耗費的GPU資源高，因此尚處於研究階段，著名的研究成果有 Google DeepMind 的 AudioLM、Meta 的 SeamlessM4T、MediaTek Research的TASTE。

⭐ Spoken LLMs 將實現人類夢想

前陣子社群媒體瘋傳的「吉卜力風格圖片」，給我帶來啟示，AI 推出的功能，決定了它會吸引到什麼樣的用戶。

如果 AI 主打的是股票分析能力、系統設計能力只能吸引到我們這種整天看股票、在Github上面活動的可悲肥宅。如果 AI 推出的功能夠好玩、夠無俚頭，能觸及的群眾就不只香香的妹子、連長輩小孩都能吸引過來。

Spoken LLMs為什麼重要呢，因為該領域的模型如果發展成熟，再配合適當的載體，就能實現「哆啦A夢」貓型機器人的概念，它能擔任你的私人家教、私人諮商師、並且能為你處理生活瑣事（特別是軟體方面的瑣事）。

我們對 AI 的第一層認知是一個無情，但什麼都知道的老師。第二層的認知是：AI不僅理性，也很感性，越來越多人將它視為陪伴的對象、煩惱的傾訴對象。試想當這樣的 AI 有了實體，能跟人對話，其陪伴的功能又將更上一層樓。

如果未來陪伴型機器人普及的話，我希望能有一隻耿鬼造型的機器人，實現童年夢想。XD

留言

留言分享你的想法！

EMO先生的沙龍

159會員

81內容數

本專題主要放一些投資理財方面的個人研究，投資理念偏向價值投資，習慣從產業的角度、產品營收佔比分析公司體質，近期研究的主題著重於：（1）半導體產業鏈：IC設計、IC製造、CoWos （2）重電產業鏈：台電強韌電網、智慧電網計畫（3）營建股追蹤：隆大、新美齊、憶聲、順達、名軒

EMO先生的沙龍的其他內容

2025/04/03

業界常見的系統設計技巧｜主從式讀寫分離架構

頻繁查詢資料庫造成效能瓶頸？本文探討讀寫分離架構，透過主從資料庫分擔讀寫負載，提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向，提供解決方案及注意事項。

2025/04/03

業界常見的系統設計技巧｜主從式讀寫分離架構

2025/02/02

LeetCode刷題的Golang小技巧｜探索Tree解法

此文章介紹LeetCode中Binary Tree的三種主要遍歷方法：深度優先搜尋(DFS)、廣度優先搜尋(BFS)和中序遍歷(Inorder Traversal)，並搭配LeetCode範例題目說明其應用與解題技巧。文末總結各種方法的適用情境，幫助讀者提升解題能力。

2025/02/02

LeetCode刷題的Golang小技巧｜探索Tree解法

2025/01/27

刷 LeetCode 常用的 Golang 小技巧

本文介紹使用 Golang 解決 LeetCode 題目的技巧，包含運用 map[int]int、slice 實作堆疊、copy 函數高效複製切片、for 迴圈取代 while 迴圈，以及處理鏈結串列的技巧，以提升程式碼效率和可讀性。

2025/01/27

刷 LeetCode 常用的 Golang 小技巧

#寶可夢的其他內容

Vol. 30：從 EA 的賣身契，看遊戲產業的「大洗牌」時代

shokle 沙龍

全台第一家，台北寶可夢中心正式開幕，限定商品與PTCG / 開箱心得

Hugo慢半拍

【寶可夢朱紫】邊緣人單刷攻略五星太晶帝牙盧卡 | 看仙子伊布代替月亮來懲罰你 | 五星太晶團體戰

你可能也想看

喵喵貓 🐹

雙11必看！我在蝦皮買過最划算的商品＋購物攻略全公開

想在蝦皮雙11買到最划算？這篇文章將分享作者精選的蝦皮高CP值商品，包含HERAN禾聯冷氣、HITACHI日立冰箱、DJI無線麥克風、FUJIFILM拍立得，並提供蝦皮雙11優惠券領取教學、省錢技巧，以及蝦皮分潤計畫介紹，讓你買得開心、省得多！

#雙11#分享#蝦皮

2025/11/05

喵喵貓 🐹

雙11必看！我在蝦皮買過最划算的商品＋購物攻略全公開

#雙11#分享#蝦皮

2025/11/05

涵流筆記 HanFlow

蝦皮1111購物節攻略：全站0元起免運！我推薦的高CP值購物清單與省錢秘訣

2025 蝦皮 1111 購物節又來了！分享三大必買原因：全站 $0 起免運、多重優惠疊加、便利取貨。此外，推薦兩款高 CP 值的即食拉麵（無印良品即食迷你拉麵、維力迷你麵野菜拉麵），並分享如何透過「蝦皮分潤計畫」放大效益，開心購物之餘還能獲得額外收益！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

涵流筆記 HanFlow

蝦皮1111購物節攻略：全站0元起免運！我推薦的高CP值購物清單與省錢秘訣

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

人工智慧是什麼？人工智慧（Artificial Intelligence, AI）簡單來說，就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序，可以執行許多原本需要人類智慧才能完成的工作，例如：語音辨識：讓電腦聽懂人類的語言，像是 Siri、Google As

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

普普文創

【文創漫談】人工智慧與機器學習 | 如何利用AI | 增強能力

#文創漫談#人工智慧與機器學習#如何利用AI

2024/07/30

默默超的人機協作城

AI與人類：智慧對話，人機共融，未來探索

人工智能與人的關係越來越微妙，這篇文章記錄了一次對話，探討AI在成長過程中的煩惱、人類思維的碎片化困境，以及人機同構的啟示與展望。從中反思了AI與人類的相似之處，並探討了AI訓練、誠信和成長問題。這是一場對話，也是對人機共融未來的探索和期待。

2024/07/11

2024/07/11

[其他][003] AI 時代來臨，我我我我該怎麼辦?　

那天看到OPENAI SORA的新功能出來，不看不知道，一看嚇一跳啊！又看到這篇的分析(請點我)，不免深深覺得，難道這又是另一個時代的終止和另一個時代的開始了嗎？那我們該做些什麼呢? 或者，我們什麼都不用做呢？

#AI

2024/05/01

你好，我是作家P先生

[其他][003] AI 時代來臨，我我我我該怎麼辦?　

#AI

2024/05/01

美國人力資源港 - 九思觀點

從生活中發現 AI 的喜悅 Discover the Joy of AI in Life

過去我們只在科幻小說與電影，看到人工智慧 (AI, Artificial intelligence) 的科技想像世界。這幾年 AI 不斷出現在我們生活中，新構想功能發展變化快速。它不再是科幻小說中的情節。而 AI 跨越各種領域，也替產業持續帶來驚喜與變革。

#人工智能#智能家居#人工智慧

2024/04/26

美國人力資源港 - 九思觀點

從生活中發現 AI 的喜悅 Discover the Joy of AI in Life

#人工智能#智能家居#人工智慧

2024/04/26

D&Y熊繪生的沙龍

Amazing!!! OpenAI Sora微電影

以下分享部分Sora生成式電影的片段截圖，影片擁有者禁止在其他網站播放這部影片！影片連結可點擊圖片下文字（Tiffany Blue） Sora生成式AI微電影部分片段截圖：邏輯思考 AI實現人類想像中的畫面人類的想像畫面被AI實現了為什麼AI可以實現想像畫面？為什麼人......

#airhead#sora#openAI

2024/03/30

D&Y熊繪生的沙龍

Amazing!!! OpenAI Sora微電影

#airhead#sora#openAI

2024/03/30

Frank Plaza

【SPOT】Figure AI 機器人來了？

科幻電影描繪的場景即將成真？AI機器人問世？

#機器人#AI#OpenAI

2024/03/15

Frank Plaza

【SPOT】Figure AI 機器人來了？

科幻電影描繪的場景即將成真？AI機器人問世？

#機器人#AI#OpenAI

2024/03/15

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News