2024-10-16|閱讀時間 ‧ 約 26 分鐘

【AI知識科普棧】 什麼是VoiceBot智能語音助理

OK Google、Hi Siri…相信這些對於我們日常都耳熟能詳吧! 他們的目標都是在試圖理解我們的意圖, 進行相對應的回應, 也就是設法來懂我們要什麼並給出我們心中所想要的。


在VoiceBot之前, 相信也都聽過Chatbot這個名詞吧! 當我們在FB與粉絲團互動時, 我們會以文字來詢問問題, 而Chatbot收到文字之後, 透過NLU、NLP…等技術來理解我們的意圖, 並歸類意圖之後, 透過樣板設計來回覆問題, 而VoiceBot則是將文字的對答改成聲音而已, But…真的只是這麼簡單嗎? 讓我們繼續看下去…


需要「會」什麼?


VoiceBot沒有按鈕、列表、提示窗, 只有聲音的回應, 因此這種互動模式需要讓機器聽的懂、能理解、能講話, 這才是真正的VoiceBot的目標, 而要達到這些目標會有幾個關鍵技術:

  1. 首先要能夠聽的懂我們在說什麼? 究竟是國語、英語還是法語呢?
  2. 聽的懂之後, 要能夠理解我們的需求
  3. 理解需求並找到適合的回答之後, 要能夠說話來回應, 讓交談更為順暢。


對應的技術有哪些?

VoiceBot的基礎配備會需要以下三大技術:

  1. 語音辨識(STT): 將我們的聲音轉換成相對應的文字, 這就相當於早期的Chatbot文字表述問題的方式, 只是難度更高 。
  2. 語意理解(NLU): 這就像是機器的大腦一樣, 透過NLP的技術去解析語音辨識的文字, 並搭配機器人要提供的服務及流程給予正確的回應。
  3. 語音合成(TTS): 將語意分析產生的回應對話內容透過語音合成的技術, 串流給使用者做為回應。


其實還有一項重要的技術叫做「串流」



即時回應很重要!!! 試想, 假設我們給一段對話,結果等了5分鐘才回應, 我們不氣死才怪, 真正順暢的對話是當我們講話到一個斷點時, 對方根據這斷點的片段去理解去思考, 並給予適當的回應, 這才是我們人類順暢的對話過程, 而要達到這個過程最關鍵的技術點就是「串流」了, 我們將聲音持續的流向後端的服務,結合VAD、語音辨識…等技術, 產生一句話,來讓機器「聽的懂」, 再搭配NLP/NLU來理解與得到對應的回答, 最後由TTS產生音訊透過「串流」來即時回答。


關於串流的技術, 有興趣的朋友, 這邊推薦您閱讀「🔒 阿Han的軟體心法實戰營 - 🦗 Kafka專區」讓我們一同來學習串流。


為什麼會有VoiceBot的需求?

老年化、少子化、缺工…, 相信這些問題已經陸陸續續的發酵了, 許多行業已經開始找不到「人」來做了, 因此需要將這些工作讓機器人幫助我們來完成, 當然這背後並不只是這麼簡單的技術, 包括硬體也要一併跟上, 而VoiceBot就像我們的耳朵、嘴巴、大腦, 能聽、能懂、能講就能夠達到基本的需求回應, 當這些技術成熟之後, 下一步搭配「能做」, 就能夠協助我們人類完成許多的任務, 也順勢解決了老年化、少子化、缺工…等人類所面臨的問題。


結語

今天只是簡單的分享未來的趨勢與對應的技術, 我們將針對這個主題來去研究各個技術, 並持續的分享心得, 以淺顯易懂的教學來引導有興趣的夥伴, 讓我們一同站在技術的前線, 共同學習成長。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.