前一篇提到語言學和人工智慧的基礎概念。接下來要分享實際上語言學家在教機器學習語言時如何解析句子以及這些語法資料如何應用。
何謂語言知識?
在教機器學習語言之前,必須先釐清什麼是語言知識。蔡教授用車子來譬喻。會開車的人未必懂得汽車的原理架構,會講中文的人也未必懂得漢語語法。我相信很多人在學外語之前,都不覺得中文也有語法吧?
兒童學習母語的方式是用外在經驗灌溉基因裡的語言種籽,和成人之後背誦學習外語是兩回事。所以從這一點來看,機器學習語言和學習外語就有共通之處。
在教學之前必須先做語法研究
語法研究其實就是找出語言中的規則。譬如中文和英文的日期和地址標示相反,這就是一組參數,輸入電腦就能馬上轉換成另一個語言的順序。這算是很簡單的例子,接下來蔡教授提供一組比較複雜的例子,來呈現語言學中的句法知識。
一般人大概不會想到要這樣排列比較吧?果然在語言學家的眼中,語言長得和凡人想的完全不一樣啊!(汗)
接著,列出這幾種排列組合之後,語言學家會進一步拆分每個句子的元件,形成以下的結構圖。
這個部分如果細講,恐怕大家都要轉台了,所以蔡教授直接把語法沒問題的四個句子丟給谷歌大師,看看大師表現如何。
四組裡面只有一組能用。雖然不意外,但我很驚訝最簡單的那一句竟然錯誤。至於為什麼,看來只能請谷歌大師出面說明了。(笑)
除了句法之外,中文還有音韻的問題。連續兩個三聲出現時,前面一個字會變成二聲,平時說話可能不會太在意,大家可以讀讀看「你好」、「老酒」就會發現三聲的字變成二聲,這就是變調。
言外之意和言內之意
我覺得比句法、音韻更麻煩的就是言外之意了。言外之意屬於語意和語用現象,蔡教授在這裡提到的幾個例子我覺得都很有趣。譬如「我只喜歡哲學」和「我不只喜歡哲學」都有「我喜歡哲學」的意思,但差一個字表達出來的感覺卻差很多。
不過,言內之意也沒有簡單到哪裡去。言內之意屬於詞法和句法現象,譬如「那把刀切得我直冒汗」其實是「那把刀讓我切得直冒汗」的意思。這種句子丟給谷歌大師,果然又得到奇妙的譯文。
二語習得和人工智慧
看完教學前要做的語法研究,是不是突然覺得自己真的中文不太好?(笑)
根據研究顯示,一個人學習外語並不是從頭開示,而是會受到母語影響,甚至是從母語出發學習外語。大家都知道母語會干擾外語學習,造成發音、文法上的錯誤。不過,我們往往忽略,語言之間有許多共通之處,所以母語其實是助力而非阻力。如果要訓練機器說話寫作,與其從頭開始,不如把它當成外國人來教,先餵一些簡單明瞭的語法規則,再和數據演算結合。(引自蔡維天教授的簡報)
說到二語學習,不禁想說個題外話。我剛出社會在公司內做口筆譯工作時,親朋好友常來問我,是不是要趕快讓孩子去學外語?我都回答先學好中文、台語再說,很多愛子心切的父母會覺得我的回答很沒誠意。
多年後進入學習翻譯的研究所,老師馬上證明我是對的。資深的筆譯老師說:母語程度不好的人,外語程度也不會好到哪裡去。現在連語言學家都這樣說,拜託大家相信我吧!
語法資料庫Linggle
機器沒有母語支持,只能靠語言學家努力做語法研究來餵養語言包。不過語法研究也有兩難之處。學界時興用語料庫和搜尋引擎支持某些論述,但研究又顯示人類的語言能力和知識絕非特定演算法能模擬。學者認為問題關鍵在於驗證的範圍太窄、採樣量也不足,因此清大結合語言學、資料科學、自然語言處理等領域的研發成果,全力發展華語語法搜尋引擎Linggle,作為人工智能的先導研究。
現在的
Linggle只能搜尋英語語法,英語苦手的人也能簡單上手。譬如你不確定中間要用什麼詞可以輸入「in a/the presence of」,你就會得到以下的結果:
這下就可以毫不猶豫地選擇「in the presence of」了。希望趕快推出中文版和日文版,翻譯的時候多好用啊!而且除此之外,主頁還有很多其他功能,大家可以去看看台灣的研究團隊有多強。
翻譯將被人工智慧取代?
蔡教授的演講還有很多有趣之處,礙於篇幅的關係必須刪掉很多內容,真的很可惜。蔡教授演講結束後的提問時間,我問了一個很膚淺又實際的問題:「以語言學家的身分,如何看待翻譯將被人工智慧取代這件事?」
蔡教授回答,現階段還沒辦法取代。而且參數可以應對,但機器始終還是不了解其意。要做到完全模仿還必須克服不同文化特質的差異、言外之意、隱喻等難關。不過,根據文體不同,有些文章的確是機器可以取代的,譬如操作手冊。也就是說,低階的工作確實會被取代。再者,現在人類看人工智慧有一種寵物心態,覺得能做到一點小事就很厲害,所以不必擔心。
我雖然不擔心自己的飯碗,但也沒有因為蔡教授的話而安心。畢竟現在的翻譯工作還是有大部分集中在文件的翻譯上,操作說明書、年報等案件在整體業界的比例絕對不是少數,如果這些翻譯工作被取代,那現在正在做這類工作的譯者呢?他們該何去何從?
話說,蔡教授真的是一個好人。我寄信向他說明想在自己的專欄寫分享心得,他很快就答應,還寄給我一篇關於語言癌的研究文章。語言癌其實也是譯者必須面對的問題,有興趣的讀者不妨看看語言學家怎麼說,讀完或許會在翻譯策略上有所轉變呢!
延伸閱讀: