2024-10-16|閱讀時間 ‧ 約 26 分鐘

【AI知識科普棧】什麼是VoiceBot智能語音助理

OK Google、Hi Siri…相信這些對於我們日常都耳熟能詳吧！他們的目標都是在試圖理解我們的意圖，進行相對應的回應，也就是設法來懂我們要什麼並給出我們心中所想要的。

在VoiceBot之前，相信也都聽過Chatbot這個名詞吧！當我們在FB與粉絲團互動時，我們會以文字來詢問問題，而Chatbot收到文字之後，透過NLU、NLP…等技術來理解我們的意圖，並歸類意圖之後，透過樣板設計來回覆問題，而VoiceBot則是將文字的對答改成聲音而已， But…真的只是這麼簡單嗎？讓我們繼續看下去…

需要「會」什麼？

VoiceBot沒有按鈕、列表、提示窗，只有聲音的回應，因此這種互動模式需要讓機器聽的懂、能理解、能講話，這才是真正的VoiceBot的目標，而要達到這些目標會有幾個關鍵技術：

首先要能夠聽的懂我們在說什麼？究竟是國語、英語還是法語呢？
聽的懂之後，要能夠理解我們的需求
理解需求並找到適合的回答之後，要能夠說話來回應，讓交談更為順暢。

對應的技術有哪些？

VoiceBot的基礎配備會需要以下三大技術：

語音辨識(STT)：將我們的聲音轉換成相對應的文字，這就相當於早期的Chatbot文字表述問題的方式，只是難度更高。
語意理解(NLU)：這就像是機器的大腦一樣，透過NLP的技術去解析語音辨識的文字，並搭配機器人要提供的服務及流程給予正確的回應。
語音合成(TTS)：將語意分析產生的回應對話內容透過語音合成的技術，串流給使用者做為回應。

其實還有一項重要的技術叫做「串流」

即時回應很重要！！！試想，假設我們給一段對話，結果等了5分鐘才回應，我們不氣死才怪，真正順暢的對話是當我們講話到一個斷點時，對方根據這斷點的片段去理解去思考，並給予適當的回應，這才是我們人類順暢的對話過程，而要達到這個過程最關鍵的技術點就是「串流」了，我們將聲音持續的流向後端的服務，結合VAD、語音辨識…等技術，產生一句話，來讓機器「聽的懂」，再搭配NLP/NLU來理解與得到對應的回答，最後由TTS產生音訊透過「串流」來即時回答。

關於串流的技術，有興趣的朋友，這邊推薦您閱讀「🔒 阿Han的軟體心法實戰營 - 🦗 Kafka專區」讓我們一同來學習串流。

為什麼會有VoiceBot的需求？

老年化、少子化、缺工…，相信這些問題已經陸陸續續的發酵了，許多行業已經開始找不到「人」來做了，因此需要將這些工作讓機器人幫助我們來完成，當然這背後並不只是這麼簡單的技術，包括硬體也要一併跟上，而VoiceBot就像我們的耳朵、嘴巴、大腦，能聽、能懂、能講就能夠達到基本的需求回應，當這些技術成熟之後，下一步搭配「能做」，就能夠協助我們人類完成許多的任務，也順勢解決了老年化、少子化、缺工…等人類所面臨的問題。

結語

今天只是簡單的分享未來的趨勢與對應的技術，我們將針對這個主題來去研究各個技術，並持續的分享心得，以淺顯易懂的教學來引導有興趣的夥伴，讓我們一同站在技術的前線，共同學習成長。

分享至

成為作者繼續創作的動力吧！

討論區

追蹤

【AI知識科普棧】什麼是VoiceBot智能語音助理

需要「會」什麼？

對應的技術有哪些？

其實還有一項重要的技術叫做「串流」

為什麼會有VoiceBot的需求？

結語

阿Han的沙龍的其他內容

你可能也想看

發表回應

【AI知識科普棧】 什麼是VoiceBot智能語音助理

需要「會」什麼？

對應的技術有哪些？

其實還有一項重要的技術叫做「串流」

為什麼會有VoiceBot的需求？

結語

阿Han的沙龍 的其他內容

你可能也想看

發表回應

【AI知識科普棧】什麼是VoiceBot智能語音助理

阿Han的沙龍的其他內容