方格精選

語言學家如何看待「翻譯將被人工智慧取代」這件事?(下篇)

閱讀時間約 5 分鐘
前一篇提到語言學和人工智慧的基礎概念。接下來要分享實際上語言學家在教機器學習語言時如何解析句子以及這些語法資料如何應用。

何謂語言知識?

在教機器學習語言之前,必須先釐清什麼是語言知識。蔡教授用車子來譬喻。會開車的人未必懂得汽車的原理架構,會講中文的人也未必懂得漢語語法。我相信很多人在學外語之前,都不覺得中文也有語法吧?
兒童學習母語的方式是用外在經驗灌溉基因裡的語言種籽,和成人之後背誦學習外語是兩回事。所以從這一點來看,機器學習語言和學習外語就有共通之處。
最後三個分別是西班牙語、夏威夷語、毛利語,除了西班牙語屬印歐語系,另外兩個是南島語系。雖然橫跨不同語系,但單字仍有共同之處,是不是很神奇?

在教學之前必須先做語法研究

語法研究其實就是找出語言中的規則。譬如中文和英文的日期和地址標示相反,這就是一組參數,輸入電腦就能馬上轉換成另一個語言的順序。這算是很簡單的例子,接下來蔡教授提供一組比較複雜的例子,來呈現語言學中的句法知識。
「辣」的方程式(本圖引自蔡維天教授簡報)
一般人大概不會想到要這樣排列比較吧?果然在語言學家的眼中,語言長得和凡人想的完全不一樣啊!(汗)
接著,列出這幾種排列組合之後,語言學家會進一步拆分每個句子的元件,形成以下的結構圖。
句法結構(本圖引自蔡維天教授簡報)
這個部分如果細講,恐怕大家都要轉台了,所以蔡教授直接把語法沒問題的四個句子丟給谷歌大師,看看大師表現如何。
「辣」的方程式(本圖引自蔡維天教授簡報)
四組裡面只有一組能用。雖然不意外,但我很驚訝最簡單的那一句竟然錯誤。至於為什麼,看來只能請谷歌大師出面說明了。(笑)
除了句法之外,中文還有音韻的問題。連續兩個三聲出現時,前面一個字會變成二聲,平時說話可能不會太在意,大家可以讀讀看「你好」、「老酒」就會發現三聲的字變成二聲,這就是變調。

言外之意和言內之意

我覺得比句法、音韻更麻煩的就是言外之意了。言外之意屬於語意和語用現象,蔡教授在這裡提到的幾個例子我覺得都很有趣。譬如「喜歡哲學」和「不只喜歡哲學」都有「我喜歡哲學」的意思,但差一個字表達出來的感覺卻差很多。
不過,言內之意也沒有簡單到哪裡去。言內之意屬於詞法和句法現象,譬如「那把刀切得我直冒汗」其實是「那把刀我切得直冒汗」的意思。這種句子丟給谷歌大師,果然又得到奇妙的譯文。

二語習得和人工智慧

看完教學前要做的語法研究,是不是突然覺得自己真的中文不太好?(笑)
根據研究顯示,一個人學習外語並不是從頭開示,而是會受到母語影響,甚至是從母語出發學習外語。大家都知道母語會干擾外語學習,造成發音、文法上的錯誤。不過,我們往往忽略,語言之間有許多共通之處,所以母語其實是助力而非阻力。如果要訓練機器說話寫作,與其從頭開始,不如把它當成外國人來教,先餵一些簡單明瞭的語法規則,再和數據演算結合。(引自蔡維天教授的簡報)
說到二語學習,不禁想說個題外話。我剛出社會在公司內做口筆譯工作時,親朋好友常來問我,是不是要趕快讓孩子去學外語?我都回答先學好中文、台語再說,很多愛子心切的父母會覺得我的回答很沒誠意。
多年後進入學習翻譯的研究所,老師馬上證明我是對的。資深的筆譯老師說:母語程度不好的人,外語程度也不會好到哪裡去。現在連語言學家都這樣說,拜託大家相信我吧!

語法資料庫Linggle

機器沒有母語支持,只能靠語言學家努力做語法研究來餵養語言包。不過語法研究也有兩難之處。學界時興用語料庫和搜尋引擎支持某些論述,但研究又顯示人類的語言能力和知識絕非特定演算法能模擬。學者認為問題關鍵在於驗證的範圍太窄、採樣量也不足,因此清大結合語言學、資料科學、自然語言處理等領域的研發成果,全力發展華語語法搜尋引擎Linggle,作為人工智能的先導研究。
現在的Linggle只能搜尋英語語法,英語苦手的人也能簡單上手。譬如你不確定中間要用什麼詞可以輸入「in a/the presence of」,你就會得到以下的結果:
Linggle搜尋引擎
這下就可以毫不猶豫地選擇「in the presence of」了。希望趕快推出中文版和日文版,翻譯的時候多好用啊!而且除此之外,主頁還有很多其他功能,大家可以去看看台灣的研究團隊有多強。

翻譯將被人工智慧取代?

蔡教授的演講還有很多有趣之處,礙於篇幅的關係必須刪掉很多內容,真的很可惜。蔡教授演講結束後的提問時間,我問了一個很膚淺又實際的問題:「以語言學家的身分,如何看待翻譯將被人工智慧取代這件事?」
蔡教授回答,現階段還沒辦法取代。而且參數可以應對,但機器始終還是不了解其意。要做到完全模仿還必須克服不同文化特質的差異、言外之意、隱喻等難關。不過,根據文體不同,有些文章的確是機器可以取代的,譬如操作手冊。也就是說,低階的工作確實會被取代。再者,現在人類看人工智慧有一種寵物心態,覺得能做到一點小事就很厲害,所以不必擔心。
我雖然不擔心自己的飯碗,但也沒有因為蔡教授的話而安心。畢竟現在的翻譯工作還是有大部分集中在文件的翻譯上,操作說明書、年報等案件在整體業界的比例絕對不是少數,如果這些翻譯工作被取代,那現在正在做這類工作的譯者呢?他們該何去何從?
話說,蔡教授真的是一個好人。我寄信向他說明想在自己的專欄寫分享心得,他很快就答應,還寄給我一篇關於語言癌的研究文章。語言癌其實也是譯者必須面對的問題,有興趣的讀者不妨看看語言學家怎麼說,讀完或許會在翻譯策略上有所轉變呢!

延伸閱讀:

為什麼會看到廣告
avatar-img
17.0K會員
133內容數
成為自由譯者之後會怎麼樣? ──就等著下地獄啊!(笑歪) 我想在這裡和大家分享我趕稿和趕稿之外的日常, 尋找同溫層一起取暖,好嗎?
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
小譯者的日常 的其他內容
我去俄羅斯旅行的時候,很少遇到能完全用英文溝通的俄羅斯人。我和旅伴幾乎是靠谷歌翻譯加眉目傳情完成戰鬥民族之旅。以前大多數人認為谷歌翻譯不堪用,現在它已經明顯進化。那之前到底是怎麼了?現在又出現什麼變化,讓谷歌突飛猛進呢?
咳咳,在武漢肺炎肆虐的這個摩門,大家好嗎?外景的故事終於要寫最後一集了。(最近因為疫情的關係,大家對咳嗽聲很敏感。偏偏我又是很容易被自己口水嗆到的人,經常嚇到路人,真是抱歉。)當初寫這個工作日誌的時候就在想,最後一集一定要等到看完外景的成品再來寫。所以,這一等就等到了月底。
今天要從東港接關台東成功,瓜哥預計至少要三個小時才能抵達。所以我們最好早早拍完收工,早早移動到台東。東港要抓緊時間拍,工作人員很早就在飯店大廳集合。 我們一早就來到金碧輝煌的東隆宮,天氣非常好,藍天白雲把金色的牌樓襯得更閃閃發亮。
景點都拍完之後,接下來就是要拍美食了。要採訪的店家都已經安排好菜色,我們人一到幾乎就可以馬上上菜。不過導演說要拍炒菜的過程,所以從拍店家外觀、炒菜過程、單品特寫、桌菜特寫一路拍完,最後才輪到我吃
咳咳,節目要開拍了。 大家趕快準備零食和飲料,坐好準備看我出糗精湛的演技了。 機場看板的記者會 開始拍攝的前一天,我才在機場見到所有工作人員。傍晚五點多,口罩大軍來來去去的機場大廳,因為疫情的關係看板上顯示許多班機取消。日方的工作人員比原定計畫還早抵達,但海關那裡似乎因為窗口少而堵住了。
就在我外出工作的這段期間,粉絲團默默增加了數名粉絲,熱烈歡迎各位參與我樸實無華的懶散日常。 前一陣子在譯者的群組上,有人提到「譯者除了口筆譯之外還有什麼其他的工作類型」這個非常正經的話題。因為太正經了,導致我不敢隨便亂回。
我去俄羅斯旅行的時候,很少遇到能完全用英文溝通的俄羅斯人。我和旅伴幾乎是靠谷歌翻譯加眉目傳情完成戰鬥民族之旅。以前大多數人認為谷歌翻譯不堪用,現在它已經明顯進化。那之前到底是怎麼了?現在又出現什麼變化,讓谷歌突飛猛進呢?
咳咳,在武漢肺炎肆虐的這個摩門,大家好嗎?外景的故事終於要寫最後一集了。(最近因為疫情的關係,大家對咳嗽聲很敏感。偏偏我又是很容易被自己口水嗆到的人,經常嚇到路人,真是抱歉。)當初寫這個工作日誌的時候就在想,最後一集一定要等到看完外景的成品再來寫。所以,這一等就等到了月底。
今天要從東港接關台東成功,瓜哥預計至少要三個小時才能抵達。所以我們最好早早拍完收工,早早移動到台東。東港要抓緊時間拍,工作人員很早就在飯店大廳集合。 我們一早就來到金碧輝煌的東隆宮,天氣非常好,藍天白雲把金色的牌樓襯得更閃閃發亮。
景點都拍完之後,接下來就是要拍美食了。要採訪的店家都已經安排好菜色,我們人一到幾乎就可以馬上上菜。不過導演說要拍炒菜的過程,所以從拍店家外觀、炒菜過程、單品特寫、桌菜特寫一路拍完,最後才輪到我吃
咳咳,節目要開拍了。 大家趕快準備零食和飲料,坐好準備看我出糗精湛的演技了。 機場看板的記者會 開始拍攝的前一天,我才在機場見到所有工作人員。傍晚五點多,口罩大軍來來去去的機場大廳,因為疫情的關係看板上顯示許多班機取消。日方的工作人員比原定計畫還早抵達,但海關那裡似乎因為窗口少而堵住了。
就在我外出工作的這段期間,粉絲團默默增加了數名粉絲,熱烈歡迎各位參與我樸實無華的懶散日常。 前一陣子在譯者的群組上,有人提到「譯者除了口筆譯之外還有什麼其他的工作類型」這個非常正經的話題。因為太正經了,導致我不敢隨便亂回。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我覺得,這其實是個很寬泛的形容詞。 打個比方說,中文領域中,一位學富五車的大教授、一位文采斐然的文學家、以及不學無術的在下我,都是「中文母語使用者」,但我們的中文水準一致嗎?顯然我比前述的兩位差多了。 那「母語水準」到底是什麼意思?我想在語言學上,自有研究討論後天習得者和第一語言習得者間的差異。
Thumbnail
AI對語言學習的衝擊 自從ChapGPT橫空出世,大家開始真正感受到AI真的來了,最起碼它在語言這塊已經可以做到接近完美的程度,很多人甚至開始懷疑到底我們還需要學習英文嗎?畢竟現在人手一機,再加上AI的應用,基本就是帶了一個會行走的翻譯機,以後出國再也不用擔心語言的問題,是不是翻譯已經變成是一項可
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
本文探討使用人工智能寫作中文教材時可能遇到的語言錯誤。透過例子指出常見的語病,包括誤解詞語、詞類誤用、前文後理不通和累贅表述。建議使用者在檢查由AI生成的教材時,應特別注意可能出現的語言錯誤,以確保教材的品質和邏輯連貫性。
我目前會10種語言:中英日俄韓法德西義波。 其中,中英日是不用看字幕也能聽懂的程度, 俄韓法義還在建立語感,德西波則還在基礎單字的等級。 會學這麼多種語言,起源於我在2020年28歲時開始學義大利語。 當初學義大利語的目的,是準備到義大利的西西里島, 參加機器學習會議
Thumbnail
在閱讀文言文時,很多同學會遇到困難,除了詞彙難懂外,文字順序也怪怪的,讓你無法順利翻成白話文,這是因為文言文「語序」與白話文有些不同,你知道是那些不同嗎?這次的文章要介紹文言文的倒裝現象,說明文言文與白話文語序不同的原因,這樣各位同學之後就能夠還原成白話文語序,有利解讀了!
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
我覺得,這其實是個很寬泛的形容詞。 打個比方說,中文領域中,一位學富五車的大教授、一位文采斐然的文學家、以及不學無術的在下我,都是「中文母語使用者」,但我們的中文水準一致嗎?顯然我比前述的兩位差多了。 那「母語水準」到底是什麼意思?我想在語言學上,自有研究討論後天習得者和第一語言習得者間的差異。
Thumbnail
AI對語言學習的衝擊 自從ChapGPT橫空出世,大家開始真正感受到AI真的來了,最起碼它在語言這塊已經可以做到接近完美的程度,很多人甚至開始懷疑到底我們還需要學習英文嗎?畢竟現在人手一機,再加上AI的應用,基本就是帶了一個會行走的翻譯機,以後出國再也不用擔心語言的問題,是不是翻譯已經變成是一項可
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
本文探討使用人工智能寫作中文教材時可能遇到的語言錯誤。透過例子指出常見的語病,包括誤解詞語、詞類誤用、前文後理不通和累贅表述。建議使用者在檢查由AI生成的教材時,應特別注意可能出現的語言錯誤,以確保教材的品質和邏輯連貫性。
我目前會10種語言:中英日俄韓法德西義波。 其中,中英日是不用看字幕也能聽懂的程度, 俄韓法義還在建立語感,德西波則還在基礎單字的等級。 會學這麼多種語言,起源於我在2020年28歲時開始學義大利語。 當初學義大利語的目的,是準備到義大利的西西里島, 參加機器學習會議
Thumbnail
在閱讀文言文時,很多同學會遇到困難,除了詞彙難懂外,文字順序也怪怪的,讓你無法順利翻成白話文,這是因為文言文「語序」與白話文有些不同,你知道是那些不同嗎?這次的文章要介紹文言文的倒裝現象,說明文言文與白話文語序不同的原因,這樣各位同學之後就能夠還原成白話文語序,有利解讀了!
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大