OK Google、Hi Siri…相信這些對於我們日常都耳熟能詳吧! 他們的目標都是在試圖理解我們的意圖, 進行相對應的回應, 也就是設法來懂我們要什麼並給出我們心中所想要的。
在VoiceBot之前, 相信也都聽過Chatbot這個名詞吧! 當我們在FB與粉絲團互動時, 我們會以文字來詢問問題, 而Chatbot收到文字之後, 透過NLU、NLP…等技術來理解我們的意圖, 並歸類意圖之後, 透過樣板設計來回覆問題, 而VoiceBot則是將文字的對答改成聲音而已, But…真的只是這麼簡單嗎? 讓我們繼續看下去…
VoiceBot沒有按鈕、列表、提示窗, 只有聲音的回應, 因此這種互動模式需要讓機器聽的懂、能理解、能講話, 這才是真正的VoiceBot的目標, 而要達到這些目標會有幾個關鍵技術:
VoiceBot的基礎配備會需要以下三大技術:
即時回應很重要!!! 試想, 假設我們給一段對話,結果等了5分鐘才回應, 我們不氣死才怪, 真正順暢的對話是當我們講話到一個斷點時, 對方根據這斷點的片段去理解去思考, 並給予適當的回應, 這才是我們人類順暢的對話過程, 而要達到這個過程最關鍵的技術點就是「串流」了, 我們將聲音持續的流向後端的服務,結合VAD、語音辨識…等技術, 產生一句話,來讓機器「聽的懂」, 再搭配NLP/NLU來理解與得到對應的回答, 最後由TTS產生音訊透過「串流」來即時回答。
關於串流的技術, 有興趣的朋友, 這邊推薦您閱讀「🔒 阿Han的軟體心法實戰營 - 🦗 Kafka專區」讓我們一同來學習串流。
老年化、少子化、缺工…, 相信這些問題已經陸陸續續的發酵了, 許多行業已經開始找不到「人」來做了, 因此需要將這些工作讓機器人幫助我們來完成, 當然這背後並不只是這麼簡單的技術, 包括硬體也要一併跟上, 而VoiceBot就像我們的耳朵、嘴巴、大腦, 能聽、能懂、能講就能夠達到基本的需求回應, 當這些技術成熟之後, 下一步搭配「能做」, 就能夠協助我們人類完成許多的任務, 也順勢解決了老年化、少子化、缺工…等人類所面臨的問題。
今天只是簡單的分享未來的趨勢與對應的技術, 我們將針對這個主題來去研究各個技術, 並持續的分享心得, 以淺顯易懂的教學來引導有興趣的夥伴, 讓我們一同站在技術的前線, 共同學習成長。