【AI知識科普棧】 什麼是VoiceBot智能語音助理

閱讀時間約 3 分鐘

OK Google、Hi Siri…相信這些對於我們日常都耳熟能詳吧! 他們的目標都是在試圖理解我們的意圖, 進行相對應的回應, 也就是設法來懂我們要什麼並給出我們心中所想要的。


在VoiceBot之前, 相信也都聽過Chatbot這個名詞吧! 當我們在FB與粉絲團互動時, 我們會以文字來詢問問題, 而Chatbot收到文字之後, 透過NLU、NLP…等技術來理解我們的意圖, 並歸類意圖之後, 透過樣板設計來回覆問題, 而VoiceBot則是將文字的對答改成聲音而已, But…真的只是這麼簡單嗎? 讓我們繼續看下去…


需要「會」什麼?

raw-image


VoiceBot沒有按鈕、列表、提示窗, 只有聲音的回應, 因此這種互動模式需要讓機器聽的懂、能理解、能講話, 這才是真正的VoiceBot的目標, 而要達到這些目標會有幾個關鍵技術:

  1. 首先要能夠聽的懂我們在說什麼? 究竟是國語、英語還是法語呢?
  2. 聽的懂之後, 要能夠理解我們的需求
  3. 理解需求並找到適合的回答之後, 要能夠說話來回應, 讓交談更為順暢。


對應的技術有哪些?

raw-image

VoiceBot的基礎配備會需要以下三大技術:

  1. 語音辨識(STT): 將我們的聲音轉換成相對應的文字, 這就相當於早期的Chatbot文字表述問題的方式, 只是難度更高 。
  2. 語意理解(NLU): 這就像是機器的大腦一樣, 透過NLP的技術去解析語音辨識的文字, 並搭配機器人要提供的服務及流程給予正確的回應。
  3. 語音合成(TTS): 將語意分析產生的回應對話內容透過語音合成的技術, 串流給使用者做為回應。


其實還有一項重要的技術叫做「串流」

raw-image



即時回應很重要!!! 試想, 假設我們給一段對話,結果等了5分鐘才回應, 我們不氣死才怪, 真正順暢的對話是當我們講話到一個斷點時, 對方根據這斷點的片段去理解去思考, 並給予適當的回應, 這才是我們人類順暢的對話過程, 而要達到這個過程最關鍵的技術點就是「串流」了, 我們將聲音持續的流向後端的服務,結合VAD、語音辨識…等技術, 產生一句話,來讓機器「聽的懂」, 再搭配NLP/NLU來理解與得到對應的回答, 最後由TTS產生音訊透過「串流」來即時回答。


關於串流的技術, 有興趣的朋友, 這邊推薦您閱讀「🔒 阿Han的軟體心法實戰營 - 🦗 Kafka專區」讓我們一同來學習串流。


為什麼會有VoiceBot的需求?

老年化、少子化、缺工…, 相信這些問題已經陸陸續續的發酵了, 許多行業已經開始找不到「人」來做了, 因此需要將這些工作讓機器人幫助我們來完成, 當然這背後並不只是這麼簡單的技術, 包括硬體也要一併跟上, 而VoiceBot就像我們的耳朵、嘴巴、大腦, 能聽、能懂、能講就能夠達到基本的需求回應, 當這些技術成熟之後, 下一步搭配「能做」, 就能夠協助我們人類完成許多的任務, 也順勢解決了老年化、少子化、缺工…等人類所面臨的問題。


結語

今天只是簡單的分享未來的趨勢與對應的技術, 我們將針對這個主題來去研究各個技術, 並持續的分享心得, 以淺顯易懂的教學來引導有興趣的夥伴, 讓我們一同站在技術的前線, 共同學習成長。

112會員
253Content count
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
當我們在訓練各種模型時, 難免會有許多實驗性的參數、產出的模型、不同的資料來源, 隨著版本迭代越來越多, 過了一段時間回頭看之後卻發現當初最好的某一個實驗參數到底是啥啊? 模型去了哪裡? 用的數據集是哪些? 我想上述這些問題都是模型訓練的過程難免會遇到的問題, 除非我們有一套管理的SOP, 比
我們在「【語音辨識引擎sherpa-onnx GPU下篇】讓您體驗更快的語音辨識功能」建置環境的過程中預到了這樣的錯誤訊息: RuntimeError: /onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc: 1209
前面幾個篇章已經大致上介紹了Hugging Face這個平台的一些基本概念了,既然我們都能夠在平台上找到各式各樣的模型,而且也能夠照著教學一步步的來下載並使用,但有沒有更簡單的方式呢? 比如說,我們專注在應用端上的開發,AI的推理就藉由平台進行呢? 答案肯定是有的,近期越來越多開源的平台也都開放這
我們過往介紹了幾個關於文字AI應用的篇章: 【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition) 【Hugging Face】Ep.6 解決問題的專業級破關知識家(Question Answering) 但單獨的文字應用似乎不太能
圖片來源… 🔍 Huggingface dataset map increase disk space 我們在「【Hugging Face】Ep.3 前往Datasets掏金趣」有稍微介紹過Dataset在Hugging Face裡面扮演著什麼樣的角色,以及如何使用,沒錯! 它非常的好用,也很
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而操作的過程中相信也會有不少玩家會遇到這樣的狀況,因此將遇到的問題整理並分享解決方法,讓需要的朋友可以參考一下。 問題 Input type (torch.FloatTen
當我們在訓練各種模型時, 難免會有許多實驗性的參數、產出的模型、不同的資料來源, 隨著版本迭代越來越多, 過了一段時間回頭看之後卻發現當初最好的某一個實驗參數到底是啥啊? 模型去了哪裡? 用的數據集是哪些? 我想上述這些問題都是模型訓練的過程難免會遇到的問題, 除非我們有一套管理的SOP, 比
我們在「【語音辨識引擎sherpa-onnx GPU下篇】讓您體驗更快的語音辨識功能」建置環境的過程中預到了這樣的錯誤訊息: RuntimeError: /onnxruntime_src/onnxruntime/core/session/provider_bridge_ort.cc: 1209
前面幾個篇章已經大致上介紹了Hugging Face這個平台的一些基本概念了,既然我們都能夠在平台上找到各式各樣的模型,而且也能夠照著教學一步步的來下載並使用,但有沒有更簡單的方式呢? 比如說,我們專注在應用端上的開發,AI的推理就藉由平台進行呢? 答案肯定是有的,近期越來越多開源的平台也都開放這
我們過往介紹了幾個關於文字AI應用的篇章: 【Hugging Face】Ep.5 文字世界中的超能力語言英雄(Named Entity Recognition) 【Hugging Face】Ep.6 解決問題的專業級破關知識家(Question Answering) 但單獨的文字應用似乎不太能
圖片來源… 🔍 Huggingface dataset map increase disk space 我們在「【Hugging Face】Ep.3 前往Datasets掏金趣」有稍微介紹過Dataset在Hugging Face裡面扮演著什麼樣的角色,以及如何使用,沒錯! 它非常的好用,也很
我們已經介紹過關於Transformer模型的平台「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」,而操作的過程中相信也會有不少玩家會遇到這樣的狀況,因此將遇到的問題整理並分享解決方法,讓需要的朋友可以參考一下。 問題 Input type (torch.FloatTen
你可能也想看
Google News 追蹤
Thumbnail
本專欄將提供給您最新的市場資訊、產業研究、交易心法、優質公司介紹,以上內容並非個股分析,還請各位依據自身狀況作出交易決策。歡迎訂閱支持我,獲得相關內容,也祝您的投資之路順遂! 每年 $990 訂閱方案👉 https://reurl.cc/VNYVxZ 每月 $99 訂閱方案👉https://re
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如果您對自動模擬中的細節不滿意,您可以使用一系列引導 Prompt 將對話引導至您喜歡的方式,以下範例示
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在 AI說書 - Prompt Engineering - 61 | Scenario Base
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - Prompt Engineering - 55 中說:Universal Simul
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 TOCD 範本體現了簡單性和有效性,此範本以四個基本元素 ( Task、Output、Context
跟 AI 機器人表達自己的需求實際上是在訓練自己的表達能力。明確向對方說你的目的是什麼,給予什麼樣的參考資料和範本。最後要求對方產出的作品是什麼。這樣的流程不論是講給 AI 或人類都很重要。那些會說 AI 很難用的人,或許現實中也常常覺得別人怎麼都聽不懂自己想說什麼,這種人即使跟 AI 表達需求,
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 人工智慧的未來是以使用者為中心,個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下來談談生成式AI對未來世界的轉變: 商業格局重新構想:邁向未來,生成式人工智慧成為改變商業格局
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode
Thumbnail
本專欄將提供給您最新的市場資訊、產業研究、交易心法、優質公司介紹,以上內容並非個股分析,還請各位依據自身狀況作出交易決策。歡迎訂閱支持我,獲得相關內容,也祝您的投資之路順遂! 每年 $990 訂閱方案👉 https://reurl.cc/VNYVxZ 每月 $99 訂閱方案👉https://re
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 如果您對自動模擬中的細節不滿意,您可以使用一系列引導 Prompt 將對話引導至您喜歡的方式,以下範例示
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在 AI說書 - Prompt Engineering - 61 | Scenario Base
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - Prompt Engineering - 55 中說:Universal Simul
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 TOCD 範本體現了簡單性和有效性,此範本以四個基本元素 ( Task、Output、Context
跟 AI 機器人表達自己的需求實際上是在訓練自己的表達能力。明確向對方說你的目的是什麼,給予什麼樣的參考資料和範本。最後要求對方產出的作品是什麼。這樣的流程不論是講給 AI 或人類都很重要。那些會說 AI 很難用的人,或許現實中也常常覺得別人怎麼都聽不懂自己想說什麼,這種人即使跟 AI 表達需求,
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 人工智慧的未來是以使用者為中心,個人在與人工智慧系統的互動中扮演著越來越重要的角色。預計這種趨勢將催生被
Thumbnail
你對 AI 的認識有多少?你在生活或工作上有運用哪些 AI 的應用服務嗎?一起來了解這個目前很夯的議題。 根據 google 對 AI(artificial intelligence,縮寫為AI)的解釋:AI 是人工智慧,定義是打造電腦與機器的科學領域,可以進行推論、學習以及採取行動。這些過往需要
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下來談談生成式AI對未來世界的轉變: 商業格局重新構想:邁向未來,生成式人工智慧成為改變商業格局
Thumbnail
我們人類和ChatGPT的對話技巧也是需要學習的,有鑑於此,我想要一天分享一點「和ChatGPT對話的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 針對Generative AI、Foundation Model、Large Language Mode