編輯嚴選
懶的動手?別怕,有虛擬助理在

2019/11/02閱讀時間約 7 分鐘
上一篇讓機器人來陪你談天說地寫了很多關於智能助理的大腦 - 自然語言處理的事情,但一個智能助理誕生與活動範圍可不只如此,這次就讓我們擴大範圍一些,聊聊關於智能助理的其他部分吧。
男人不能剩一張嘴,助理不能只有一顆腦
傳統系統上,人們使用滑鼠、觸控與按鈕等方式來各式資訊系統互動交流,但我們就會發現有個小問題,就是這一切都需要用到手,而很不巧的是我們只有兩隻手,即使是開燈或是拿手機控制智能音響撥放音樂等諸如此類的小事情,我們都至少需要使用到百分之五十、百分之百的操作能力(一隻手或是兩隻手),更別說是查詢明天天氣與預定晚餐餐廳等等複雜的任務,不但我們都必須停下手邊事務來專心處理,還需要花精神回想,甚至透過Google來查詢餐廳的電話號碼,而如此麻煩的步驟在改用智能助理來協助之後,只需喊一聲「幫我向上個月去過的那家餐廳預約明天的晚餐」,或是像Google 在 2018 I/O 開發者年會上示範了一段 Google Assistant AI 語音助理自動打電話到餐廳、髮廊預約時段的新功能一樣自然方便。
一切聽起來如此美好,但若我要用一個詞來提出其中最重要的改變,那我會用「互動方式」這個詞彙來做為這一切改變的中心。在電腦剛誕生之際,我們只能透過生澀難統的指令來指揮系統,也逼迫我們學習使用電腦語言,但這一切都是反人性且充滿痛處的互動方式,明明有著能譜詩寫曲的美麗語言的我們,怎麼可以向這些頑石不靈的機械語言妥協呢?
幸好有些天才會來幫助人類度過這個難關,1968年第一個滑鼠誕生於世,從此人們可以使用滑鼠來代替鍵盤那繁瑣的指令,只要動動鼠標到按鈕位置輕輕點下便能執行任務,普遍大眾也終於不用再硬記死背那些符咒般的指令,脫離大指令背誦時代,人操作電腦變得更加簡便容易,也讓電腦更簡易就能推廣到各戶人家的客廳臥室。
在滑鼠之後我們還有了觸控面板、觸控螢幕,但惰性是最棒的科技加速器這句話可不是隨便說說的,終於我們聚集精華發明出了智能助理,讓我們連手都不用動了。

虛擬助理的層層架構

為了清楚表示虛擬助理的基礎架構,我將分成互動、理解、執行三大步驟來依序層層說明,這些步驟又可以依據不同任務情境而有些不同的變化,但現在讓我們用一個最平易近人的情境來了解這些步驟,也就是在我們身邊最常見到的手機智能助理了,為了搭配這個平易近人的情境我們要來個最日常但又最重要的任務 – 設定明天早上鬧鐘。
別小看這個任務了,想想上次睡醒時不敢置信地看到鬧鐘時針位置的心情,沒有人能容忍這樣的狀控,特別是當這一切的元兇,竟是鬧鐘壞掉導致的時間設定錯誤,我想這時都想去法院控告鬧鐘廠商的無能了吧?
那麼我們開始從第一步想想這個流程,一步步讓智能助理來幫我們正確無誤的設定鬧鐘吧。

第一關卡,互動

首先第一步互動階段,這階段是整段流程的起點,也是影響使用者的第一印象,在使用經驗上市至關重要的一步,這一階段的成功率與人機互動體驗都會很大部分決定使用者是否會繼續使用,而目前最開始的時候我們必須說出特定句子,也就是最聽到的「hey Siri」與「OK Google」,我們稱之為喚醒語,在成功喚醒之後我們便可以開始下達指令。在這個階段最重要就是正確清楚地蒐集與辨識語音,因為對於電腦來說音訊其實是不好處理的訊息格式,因此目前的系統傾向先將語音轉換成文字在進行處理,而達成這一步的前提就是清楚的音訊與轉換文字的工具,這方面就需要強大硬體裝置協助,手機、智能音箱都是目前普遍使用的音訊蒐集工具,另外新興的配戴式裝置也都是很有潛力的物件之一。
讓我們從「嗨!智能助理」開始進入鬧鐘設定的流程之中吧
有什麼能幫你服務的,直接跟我說吧

第二關卡,理解

在我們終於成功蒐集語音並轉換為文字之後,我們來到了理解的部分,這部份我們在上一篇文章中有較深入的說明,解釋機器是如何解析與理解使用者的對談,但除了上偏所述正式的康莊大道,我們還是有很多現實的問題在眼前。
目前技術成長可說是勢不可擋,辨識率更是節節攀升九成之上,但即使像是成功辨識率達到九成左右的現在,但也意味著每十位使用者,或是連續與之對話十次之中,就會有一次失敗的使用體驗,你能想像有個手機打字每十個字就會出錯一個字嗎?我想這一定不是會受歡迎的產品,所以在離辨識率百分之百之前,我們還是要有一些緩衝方案來彌補那一些現場瑕疵。
現實真的滿殘酷的,這種現場問題往往還是只能回到傳統,像是窮舉法或是進行例外處理,簡單來說就是打補釘,但這真的不是很好的方式,往往過多的補丁到最後都會有很多矛盾,而且這些規則累積起來十分可怕,將會複雜到連製作人都無法完全記得規則。以「0104」來說,語意理解模型就很難確定這究竟是一月四日還是1點零四分,或是某個大廠股票的代號,所以這個補釘就必須透過上下文來進行判定,可是誰又能說得準前後文有多少可能性呢?
但這個方法也不是完全沒有好處的,至少方便掌握結果與進行測試,而且大家都易於理解,例如飲料訂購的平台就可以直接確立固定的例外處理,當看到連續4個數字時就是時間,連語意理解模型都可以略過,畢竟從使用案例數量觀察來說這是最有可能的。
現在就讓我們向語音助理說明任務內容吧,「我想設定八點十五分的鬧鐘」

第三關卡,執行

當機器人終於了解了任務內容,接下來就執行任務了。執行任務包含傳統單一系統功能的執行,或是當資訊不足時進行更多輪的來回對談,以飲料店員為例子來說明,當確定消費者是來購買飲料之後,再來我們就要進一步的跟消費者確定品項、冰塊與甜度等等問題,而這些來回對談的步驟也會再次考驗機器人的理解能力,我想上一節也提過對話的變化性總是難以預期,這個部分就不再次贅述了。
這邊我想強調執行上的跨域合作,語音助理最方便的即是在可以使用更人性化的交流方式,同時可以讓控制面板成為非必要的設備,而智慧居家就中一個常被使用到的場域,智慧房屋的基礎在於物聯網架構,藉由網路來操作與指揮家電等設備,一般來說會使用智慧手機上的APP或是傳統遙控器來控制,但我們有時候並沒有把手機等智慧裝置隨身攜帶,更別說那個永遠會自己消失的電視遙控器。
這時候語音助理就是良好的使用者控制裝置,智能助理不但可以使用人性化的交流方式,改變傳統的使用體驗,此外還能降低設備對於螢幕的需求,對於智慧家庭這種破碎式的使用情境來說就再好不過了,因為我們不能期待使用者會在家中隨身攜帶智慧手機,更沒有辦法要求在每個家電上都安裝上控制面板,但智能助理因為是依靠語音與人類進行交流,不但不需要面板還可以擺脫人類的手臂範圍限制,只要在方便收音的地方放置智能助理,以後我們只要喊一聲就能藉由語音與物聯網來控制智慧家庭的一切裝置。
「您好,將為您設定八點十五分的鬧鐘,請問是早上或是晚上的呢?」
「早上。」
「好的,已經為您設定早上八點十五分的鬧鐘。」

有一天,房子會比你的老媽還要了解你

未揭露關卡,智能

恭喜,我們終於講清楚了一切。
‧‧‧‧‧才沒有。
這一切不管是哪一項都不是這樣三言兩語就可以完整說明的,無論是看起來多小的一件事情都是學賦五車的人才們一同努力,在花費千萬個日子之後才能堆砌出的金字塔,而這些都還只是改革的開端,智能助理也還遠不到能稱呼為智能的程度。
但若有一天,當所有事情我們都透過智能助理、網路與物聯網方式控制,各個專家也投身於中間資料的分析任務與系統發展,讓所有人都能探勘資料並真實掌握住資料的力量,我們將可以不需要再想著明天究竟要設定幾點鬧鐘,而是使用真正的「智能助理」協助我們的生活,讓智能助理來向人類主動詢問
「先生,您還未設定明日鬧鐘,是否根據平日上班時間設定早上八點十五分的鬧鐘呢?」

未來我還會持續針對「程式與資訊技術科普」、「程式教育」、「軟體工程師工作內容」等方向進行撰文,也希望若大家有想要暸解的內容能留言給我,提供給我一些新的靈感。
為什麼會看到廣告
西塔梅
西塔梅
用科技架構出生活,從文字找回自我,隨心所欲的漫步日常。 一個喜歡閱讀寫字、對螢幕適應不良的失序工程師。
留言0
查看全部
發表第一個留言支持創作者!