原來哆啦A夢都是真的|Spoken LLMs帶來的革命

更新於 發佈於 閱讀時間約 3 分鐘

大家是否想過一個問題:隨著AI的普及化,過去陪伴大家長大的動畫角色「哆啦A夢」,是否可能成真?理論上只要有適合的載體,配合能聽得懂使用者說話的LLMs,「哆啦A夢」的概念就有可能成真!下文將介紹兩個與AI對話的作法,以及我對這個領域的未來看法。


⭐ 主流作法:語音轉文字,使用現有LLMs進行推論


流程如下:

①「語音轉文字」:使用語音辨識系統將語音轉為文字,著名系統為Whisper。

②「將文字餵給LLM」:將轉換後的文字丟給LLM,可依照不同情境餵給ChatGPT, Claude, Grok, Gemini...

③「文字輸出合成語音」:將AI的文字輸出合成語音,著名語音合成系統為ElevenLabs、Google TTS、Azure TTS。


該方法是基於現行大眾常用的LLMs,回覆內容已經相當成熟、準確率高。且整個流程使用不同系統串接,可依不同模組進行優化。


值得注意的是,該架構因為需要切換語音與文字,回覆速度不快。而且在語音轉文字的過程中,可能遺失說話者的語氣,所以如果要應用到真實的對話上,AI 的反應跟速度會讓使用者感覺「不大自然」


⭐ 理想作法:「會講話的LLM」Spoken LLMs


如果說大型語言模型是基於大量文字訓練出來的 AI 模型,Spoken LLMs可以說是基於大量語音資料訓練出來的 AI 模型,允許使用者直接透過說話的方式,跟 AI 進行溝通。


與第一種方法不同的是,Spoken LLMs 不用透過語音轉文字的方式,能直接分析使用者的語句及語氣,因此理論上Spoken LLMs考慮更多使用者的情感,回覆的速度及內容也會讓使用者認為更自然


該方法雖然理想,但由於訓練資料不易取得、需要耗費的GPU資源高,因此尚處於研究階段,著名的研究成果有 Google DeepMind 的 AudioLM、Meta 的 SeamlessM4T、MediaTek Research的TASTE。


⭐ Spoken LLMs 將實現人類夢想


前陣子社群媒體瘋傳的「吉卜力風格圖片」,給我帶來啟示,AI 推出的功能,決定了它會吸引到什麼樣的用戶


如果 AI 主打的是股票分析能力、系統設計能力只能吸引到我們這種整天看股票、在Github上面活動的可悲肥宅。如果 AI 推出的功能夠好玩、夠無俚頭,能觸及的群眾就不只香香的妹子、連長輩小孩都能吸引過來。


Spoken LLMs為什麼重要呢,因為該領域的模型如果發展成熟,再配合適當的載體,就能實現「哆啦A夢」貓型機器人的概念,它能擔任你的私人家教、私人諮商師、並且能為你處理生活瑣事(特別是軟體方面的瑣事)。


我們對 AI 的第一層認知是一個無情,但什麼都知道的老師。第二層的認知是:AI不僅理性,也很感性,越來越多人將它視為陪伴的對象、煩惱的傾訴對象。試想當這樣的 AI 有了實體,能跟人對話,其陪伴的功能又將更上一層樓。


如果未來陪伴型機器人普及的話,我希望能有一隻耿鬼造型的機器人,實現童年夢想。XD


raw-image



留言
avatar-img
留言分享你的想法!
avatar-img
EMO先生的沙龍
159會員
66內容數
本專題主要放一些投資理財方面的個人研究,投資理念偏向價值投資,習慣從產業的角度、產品營收佔比分析公司體質,近期研究的主題著重於: (1)半導體產業鏈:IC設計、IC製造、CoWos (2)重電產業鏈:台電強韌電網、智慧電網計畫 (3)營建股追蹤:隆大、新美齊、憶聲、順達、名軒
EMO先生的沙龍的其他內容
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
2025/02/02
此文章介紹LeetCode中Binary Tree的三種主要遍歷方法:深度優先搜尋(DFS)、廣度優先搜尋(BFS)和中序遍歷(Inorder Traversal),並搭配LeetCode範例題目說明其應用與解題技巧。文末總結各種方法的適用情境,幫助讀者提升解題能力。
Thumbnail
2025/02/02
此文章介紹LeetCode中Binary Tree的三種主要遍歷方法:深度優先搜尋(DFS)、廣度優先搜尋(BFS)和中序遍歷(Inorder Traversal),並搭配LeetCode範例題目說明其應用與解題技巧。文末總結各種方法的適用情境,幫助讀者提升解題能力。
Thumbnail
2025/01/27
本文介紹使用 Golang 解決 LeetCode 題目的技巧,包含運用 map[int]int、slice 實作堆疊、copy 函數高效複製切片、for 迴圈取代 while 迴圈,以及處理鏈結串列的技巧,以提升程式碼效率和可讀性。
Thumbnail
2025/01/27
本文介紹使用 Golang 解決 LeetCode 題目的技巧,包含運用 map[int]int、slice 實作堆疊、copy 函數高效複製切片、for 迴圈取代 while 迴圈,以及處理鏈結串列的技巧,以提升程式碼效率和可讀性。
Thumbnail
看更多
你可能也想看
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
沙龍一直是創作與交流的重要空間,這次 vocus 全面改版了沙龍介面,就是為了讓好內容被好好看見! 你可以自由編排你的沙龍首頁版位,新版手機介面也讓每位訪客都能更快找到感興趣的內容、成為你的支持者。 改版完成後可以在社群媒體分享新版面,並標記 @vocus.official⁠ ♥️ ⁠
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
那天看到OPENAI SORA的新功能出來,不看不知道,一看嚇一跳啊! 又看到這篇的分析(請點我),不免深深覺得,難道這又是另一個時代的終止和另一個時代的開始了嗎? 那我們該做些什麼呢? 或者,我們什麼都不用做呢?
Thumbnail
那天看到OPENAI SORA的新功能出來,不看不知道,一看嚇一跳啊! 又看到這篇的分析(請點我),不免深深覺得,難道這又是另一個時代的終止和另一個時代的開始了嗎? 那我們該做些什麼呢? 或者,我們什麼都不用做呢?
Thumbnail
過去我們只在科幻小說與電影,看到人工智慧 (AI, Artificial intelligence) 的科技想像世界。這幾年 AI 不斷出現在我們生活中,新構想功能發展變化快速。它不再是科幻小說中的情節。而 AI 跨越各種領域,也替產業持續帶來驚喜與變革。
Thumbnail
過去我們只在科幻小說與電影,看到人工智慧 (AI, Artificial intelligence) 的科技想像世界。這幾年 AI 不斷出現在我們生活中,新構想功能發展變化快速。它不再是科幻小說中的情節。而 AI 跨越各種領域,也替產業持續帶來驚喜與變革。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News