大家是否想過一個問題:隨著AI的普及化,過去陪伴大家長大的動畫角色「哆啦A夢」,是否可能成真?理論上只要有適合的載體,配合能聽得懂使用者說話的LLMs,「哆啦A夢」的概念就有可能成真!下文將介紹兩個與AI對話的作法,以及我對這個領域的未來看法。
⭐ 主流作法:語音轉文字,使用現有LLMs進行推論
流程如下:
①「語音轉文字」:使用語音辨識系統將語音轉為文字,著名系統為Whisper。
②「將文字餵給LLM」:將轉換後的文字丟給LLM,可依照不同情境餵給ChatGPT, Claude, Grok, Gemini...
③「文字輸出合成語音」:將AI的文字輸出合成語音,著名語音合成系統為ElevenLabs、Google TTS、Azure TTS。
該方法是基於現行大眾常用的LLMs,回覆內容已經相當成熟、準確率高。且整個流程使用不同系統串接,可依不同模組進行優化。
值得注意的是,該架構因為需要切換語音與文字,回覆速度不快。而且在語音轉文字的過程中,可能遺失說話者的語氣,所以如果要應用到真實的對話上,AI 的反應跟速度會讓使用者感覺「不大自然」。
⭐ 理想作法:「會講話的LLM」Spoken LLMs
如果說大型語言模型是基於大量文字訓練出來的 AI 模型,Spoken LLMs可以說是基於大量語音資料訓練出來的 AI 模型,允許使用者直接透過說話的方式,跟 AI 進行溝通。
與第一種方法不同的是,Spoken LLMs 不用透過語音轉文字的方式,能直接分析使用者的語句及語氣,因此理論上Spoken LLMs考慮更多使用者的情感,回覆的速度及內容也會讓使用者認為更自然。
該方法雖然理想,但由於訓練資料不易取得、需要耗費的GPU資源高,因此尚處於研究階段,著名的研究成果有 Google DeepMind 的 AudioLM、Meta 的 SeamlessM4T、MediaTek Research的TASTE。
⭐ Spoken LLMs 將實現人類夢想
前陣子社群媒體瘋傳的「吉卜力風格圖片」,給我帶來啟示,AI 推出的功能,決定了它會吸引到什麼樣的用戶。
如果 AI 主打的是股票分析能力、系統設計能力只能吸引到我們這種整天看股票、在Github上面活動的可悲肥宅。如果 AI 推出的功能夠好玩、夠無俚頭,能觸及的群眾就不只香香的妹子、連長輩小孩都能吸引過來。
Spoken LLMs為什麼重要呢,因為該領域的模型如果發展成熟,再配合適當的載體,就能實現「哆啦A夢」貓型機器人的概念,它能擔任你的私人家教、私人諮商師、並且能為你處理生活瑣事(特別是軟體方面的瑣事)。
我們對 AI 的第一層認知是一個無情,但什麼都知道的老師。第二層的認知是:AI不僅理性,也很感性,越來越多人將它視為陪伴的對象、煩惱的傾訴對象。試想當這樣的 AI 有了實體,能跟人對話,其陪伴的功能又將更上一層樓。
如果未來陪伴型機器人普及的話,我希望能有一隻耿鬼造型的機器人,實現童年夢想。XD
