原來哆啦A夢都是真的|Spoken LLMs帶來的革命

更新於 發佈於 閱讀時間約 4 分鐘

大家是否想過一個問題:隨著AI的普及化,過去陪伴大家長大的動畫角色「哆啦A夢」,是否可能成真?理論上只要有適合的載體,配合能聽得懂使用者說話的LLMs,「哆啦A夢」的概念就有可能成真!下文將介紹兩個與AI對話的作法,以及我對這個領域的未來看法。

⭐ 主流作法:語音轉文字,使用現有LLMs進行推論

流程如下:

①「語音轉文字」:使用語音辨識系統將語音轉為文字,著名系統為Whisper。

②「將文字餵給LLM」:將轉換後的文字丟給LLM,可依照不同情境餵給ChatGPT, Claude, Grok, Gemini...

③「文字輸出合成語音」:將AI的文字輸出合成語音,著名語音合成系統為ElevenLabs、Google TTS、Azure TTS。

該方法是基於現行大眾常用的LLMs,回覆內容已經相當成熟、準確率高。且整個流程使用不同系統串接,可依不同模組進行優化。

值得注意的是,該架構因為需要切換語音與文字,回覆速度不快。而且在語音轉文字的過程中,可能遺失說話者的語氣,所以如果要應用到真實的對話上,AI 的反應跟速度會讓使用者感覺「不大自然」

⭐ 理想作法:「會講話的LLM」Spoken LLMs

如果說大型語言模型是基於大量文字訓練出來的 AI 模型,Spoken LLMs可以說是基於大量語音資料訓練出來的 AI 模型,允許使用者直接透過說話的方式,跟 AI 進行溝通。

與第一種方法不同的是,Spoken LLMs 不用透過語音轉文字的方式,能直接分析使用者的語句及語氣,因此理論上Spoken LLMs考慮更多使用者的情感,回覆的速度及內容也會讓使用者認為更自然

該方法雖然理想,但由於訓練資料不易取得、需要耗費的GPU資源高,因此尚處於研究階段,著名的研究成果有 Google DeepMind 的 AudioLM、Meta 的 SeamlessM4T、MediaTek Research的TASTE。

⭐ Spoken LLMs 將實現人類夢想

前陣子社群媒體瘋傳的「吉卜力風格圖片」,給我帶來啟示,AI 推出的功能,決定了它會吸引到什麼樣的用戶

如果 AI 主打的是股票分析能力、系統設計能力只能吸引到我們這種整天看股票、在Github上面活動的可悲肥宅。如果 AI 推出的功能夠好玩、夠無俚頭,能觸及的群眾就不只香香的妹子、連長輩小孩都能吸引過來。

Spoken LLMs為什麼重要呢,因為該領域的模型如果發展成熟,再配合適當的載體,就能實現「哆啦A夢」貓型機器人的概念,它能擔任你的私人家教、私人諮商師、並且能為你處理生活瑣事(特別是軟體方面的瑣事)。

我們對 AI 的第一層認知是一個無情,但什麼都知道的老師。第二層的認知是:AI不僅理性,也很感性,越來越多人將它視為陪伴的對象、煩惱的傾訴對象。試想當這樣的 AI 有了實體,能跟人對話,其陪伴的功能又將更上一層樓。

如果未來陪伴型機器人普及的話,我希望能有一隻耿鬼造型的機器人,實現童年夢想。XD

raw-image
留言
avatar-img
留言分享你的想法!
avatar-img
EMO先生的沙龍
158會員
76內容數
本專題主要放一些投資理財方面的個人研究,投資理念偏向價值投資,習慣從產業的角度、產品營收佔比分析公司體質,近期研究的主題著重於: (1)半導體產業鏈:IC設計、IC製造、CoWos (2)重電產業鏈:台電強韌電網、智慧電網計畫 (3)營建股追蹤:隆大、新美齊、憶聲、順達、名軒
EMO先生的沙龍的其他內容
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
2025/04/03
頻繁查詢資料庫造成效能瓶頸?本文探討讀寫分離架構,透過主從資料庫分擔讀寫負載,提升系統效能。並深入分析資料一致性、應用層路由、負載均衡及Redis快取等重要面向,提供解決方案及注意事項。
Thumbnail
2025/02/02
此文章介紹LeetCode中Binary Tree的三種主要遍歷方法:深度優先搜尋(DFS)、廣度優先搜尋(BFS)和中序遍歷(Inorder Traversal),並搭配LeetCode範例題目說明其應用與解題技巧。文末總結各種方法的適用情境,幫助讀者提升解題能力。
Thumbnail
2025/02/02
此文章介紹LeetCode中Binary Tree的三種主要遍歷方法:深度優先搜尋(DFS)、廣度優先搜尋(BFS)和中序遍歷(Inorder Traversal),並搭配LeetCode範例題目說明其應用與解題技巧。文末總結各種方法的適用情境,幫助讀者提升解題能力。
Thumbnail
2025/01/27
本文介紹使用 Golang 解決 LeetCode 題目的技巧,包含運用 map[int]int、slice 實作堆疊、copy 函數高效複製切片、for 迴圈取代 while 迴圈,以及處理鏈結串列的技巧,以提升程式碼效率和可讀性。
Thumbnail
2025/01/27
本文介紹使用 Golang 解決 LeetCode 題目的技巧,包含運用 map[int]int、slice 實作堆疊、copy 函數高效複製切片、for 迴圈取代 while 迴圈,以及處理鏈結串列的技巧,以提升程式碼效率和可讀性。
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
人工智能與人的關係越來越微妙,這篇文章記錄了一次對話,探討AI在成長過程中的煩惱、人類思維的碎片化困境,以及人機同構的啟示與展望。從中反思了AI與人類的相似之處,並探討了AI訓練、誠信和成長問題。這是一場對話,也是對人機共融未來的探索和期待。
Thumbnail
那天看到OPENAI SORA的新功能出來,不看不知道,一看嚇一跳啊! 又看到這篇的分析(請點我),不免深深覺得,難道這又是另一個時代的終止和另一個時代的開始了嗎? 那我們該做些什麼呢? 或者,我們什麼都不用做呢?
Thumbnail
那天看到OPENAI SORA的新功能出來,不看不知道,一看嚇一跳啊! 又看到這篇的分析(請點我),不免深深覺得,難道這又是另一個時代的終止和另一個時代的開始了嗎? 那我們該做些什麼呢? 或者,我們什麼都不用做呢?
Thumbnail
過去我們只在科幻小說與電影,看到人工智慧 (AI, Artificial intelligence) 的科技想像世界。這幾年 AI 不斷出現在我們生活中,新構想功能發展變化快速。它不再是科幻小說中的情節。而 AI 跨越各種領域,也替產業持續帶來驚喜與變革。
Thumbnail
過去我們只在科幻小說與電影,看到人工智慧 (AI, Artificial intelligence) 的科技想像世界。這幾年 AI 不斷出現在我們生活中,新構想功能發展變化快速。它不再是科幻小說中的情節。而 AI 跨越各種領域,也替產業持續帶來驚喜與變革。
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
以下分享部分Sora生成式電影的片段截圖,影片擁有者禁止在其他網站播放這部影片! 影片連結可點擊圖片下文字(Tiffany Blue) Sora生成式AI微電影部分片段截圖: 邏輯思考 AI實現人類想像中的畫面 人類的想像畫面被AI實現了 為什麼AI可以實現想像畫面? 為什麼人......
Thumbnail
科幻電影描繪的場景即將成真?AI機器人問世?
Thumbnail
科幻電影描繪的場景即將成真?AI機器人問世?
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News