對話式人工智慧是什麼?如何運作?
對話式人工智慧(Conversational AI)指的是讓人跟機器用對話的方式進行溝通。通常應用在智慧家電,例如當你說開燈,燈就會自動打開。另外還有對話機器人,例如Line的對話機器人或是一些公司的客服,可以用打字的方式進行對話,處理問題。
如何讓機器與人對話?
人類的自然語言有口音的不同,發音的不同,或是斷句的不同,那麼如何讓機器與人對話?在人機對話的過程中,先由人類發出聲音,經過翻譯轉換成內容(text),再經由特定領域的語言模型,轉換成你的動機(intention),在這個動機下,機器要怎麼反應。機器有大量的數據理解後,決定下一個動作,也就是決策(policy),然後再轉換成句子(text),發出聲音,完成與人之間的對話。
如何讓機器理解人類的對話?
我們首先要找到一段聲音,然後進行學習,在依照其特徵辨識出在講哪一個字。把一段聲波拆成很多個頻譜,我們一般人說話大概有16到24個頻譜,也就是說話的時候同時有24個聲道,然後找出特殊的音頻轉折的地方。拿到圖樣(pattern)特徵,再丟給類神經網路進行資料訓練。用記憶方式連結對話
在進階的類神經網路(RNN)裡運行,可以進行記憶,當你在說一句話時,它會有前一句話的記憶,就可以進行前後文參考,達到較準確地辨識。
BERT(Bidirectional Encoder Representation from Transformer)這個由Google開發的語音辨識技術,就是其中一個使用RNN所開發出的模型。也是目前最受歡迎的語言模型。