我去俄羅斯旅行的時候,很少遇到能完全用英文溝通的俄羅斯人。我和旅伴幾乎是靠谷歌翻譯加眉目傳情完成戰鬥民族之旅。以前大多數人認為谷歌翻譯不堪用,現在它已經明顯進化。那之前到底是怎麼了?現在又出現什麼變化,讓谷歌突飛猛進呢?
一般人可能不清楚,要做翻譯科技絕對少不了語言學。教人工智慧學習人類的語言,也需要語言學家先將語言分解並建立重組的規則,才有可能讓「機器」模擬「人類的語言」。
清大語言學研究所的蔡維天教授在輔大跨文所舉辦的科技部學術研習營暨語言科技與醫療翻譯工作坊主講《語言學與人工智慧》,就是在討論這個議題。內容非常精實,身為翻譯工作者,我受到很多啟發。
在進入正題之前,必須先了解語言學
語言學是一門很跨領域的學問,和社會學混搭就是社會語言學,和認知心理學混搭就是心理語言學。基本上每個領域都會和語言學有關聯,因為每個領域都必須用語言去討論,才能成就一門學問。
聽起來很博大精深難以理解,但其實語言學一直都在生活當中應用。譬如學習外語,就是一個很好的例子。
我們天天在用的中文甚至台語,根本不會去思考什麼動詞名詞代詞。今天如果你學英文的時候,碰到不懂動詞名詞代詞的老師,我想你會很痛苦。語言學家就是把這些現在看起來理所當然的詞彙分類,然後找到重建句子規則的人。(我這麼說,語言學家會可能想掐死我,不過這麼說應該會比較好懂。)
就我的理解來說,語言學就是幫助人類了解母語和其他語言的學問,所以其實不用想得太複雜。
我們為什麼會說母語?
蔡教授的演講一開始就提到我最近很感興趣的話題──人為什麼會有語言能力?從語言生物觀的角度來說,語言是人類的本能,基因當中本來就自帶一個語言包。全世界的人類語言都有共通之處,就是因為我們有「普遍語法」。而普遍語法就是指兒童發展語言的初始狀態。
普遍語法就像一顆種籽,當孩子漸漸成長,外在的經驗會不斷澆灌,讓語言長成一棵大樹。我經常看的科普頻道曾經提到過「狼孩」這個主題。從小就被狼抓去養的孩子,一旦超過某個年齡,就再也無法學會語言。他們頂多只能了解單詞,但無法了解詞和詞之間的連結。也就是說,雖然我們一出生就自帶語言包,但是缺乏外在經驗澆灌,仍然無法習得語言。
人工智慧學習人類語言的難處
從前面的內容可以了解,人類的語言生成需要一個基因中的語言包和外在經驗。在語言學上,基於這一點把語言分成兩個層面:
- 內延語言:基於普遍語法而來的內在語言知識或語言官能。
- 外延語言:約定俗成的外在語言行為與形式。
機器要學習語言勢必要「以人為師」。機器在明確的規範下能累積經驗、解決問題,可以長時間做大量運算不會疲勞,更加不會受到情緒的影響。這也是為什麼世界棋王會輸給電腦的原因。不過,機器雖然擅長累積經驗,卻難以抒發情感、創作文學作品。我想這就是因為機器本身缺少了那個人類基因裡自帶的語言包(內延語言),只能靠累積經驗來模擬人類的語言(外延語言)。
人工智慧怎麼學習人類的語言?
那麼人工智慧要如何透過大量的外在經驗模擬人類語言呢?針對這一點,蔡教授提到
自然語言處理(natural language processing,簡稱NLP),這是人工智慧的一部分,也是人類和機器溝通的管道。
中研院的馬偉雲研究員在《研之有物》提到,要讓電腦學習語言,第一步是教會機器斷詞、理解詞;第二步則是分析句子,包含語法及語義的自動解析。這項工作需要結合語言學家和資訊處理專家能各領域的人才。而且語言學家在這裡扮演了非常關鍵的角色,因為語言學家就是在分析語言的結構邏輯,分析出來之後才能讓機器學習。
那我們要如何得知,機器模擬的語言自不自然呢?有一種方法叫做圖靈測試。
圖靈測試示意圖(圖片來自https://science.jrank.org/programming/Turing_Test.html)
這個圖靈測試簡單來說就是讓人在不知情的狀況下分別和電腦、人類聊天,測試人會不會發現自己聊天的對象是電腦。不過目前除了假新聞之外,我還沒看到有機器人通過圖靈測試就是了。撇除語言成分,倒是有外觀和人類相近到難以辨別真偽的機器人。(有興趣的朋友可以參考
日本人造美少女的影片,真的滿像的,而且還是2018年的新聞。)
人工智慧到底能不能學會人類的語言?
既然沒有機器人通過圖靈測試,是不是就表示機器無法學會語言呢?這個問題沒有答案,不過蔡老師提出他語言學家的觀點。機器可以用外在經驗模擬外延語言,但內延語言可是說是人類演化的結晶,機器是否真的能學會還是一個問題。而且,人工智慧終究只是在「模擬」語言,並不是真的「了解」語言,這一點和人類對「學會」的定義就不太相同了。
讀到這裡大家可能覺得沒什麼結論,這很正常,因為一切都是進行式,我們永遠無法準確預測未來。而且,談到這裡還沒超過蔡教授簡報的一半呢!對語言學和人工智能有概念之後,下一集我會繼續分享蔡教授怎麼談語言學在人工智慧領域的應用、對翻譯工作的影響以及我個人的看法。