中文系也能和科技產生連接:略分享語言資訊處理的階段發展與趨勢

閱讀時間約 5 分鐘
圖源:Lexica

圖源:Lexica


前言


昨天晚上看到了一位北大中文系的學姊從事自然語言處理(NPL)科技工作的文章後,感觸非常深,因為一來我的學習過程和該位學姊非常像,在中文領域和資訊領域都有所涉獵,雖然不像那位學姊那樣那麼專業。二來,是因為中文領域也能和科技技術緊密結合。綜合以上,或許我身為資管系又熱愛中文的我,也能往中文資訊處理這條路發展看看。

文章截圖

文章截圖


不過,今天早上有一位台大資工所的學長看到我發了這條訊息之後,跟我分享了一個談論自然語言處理已經團滅的消息,並且跟我分享一部影片。我起初看了這條訊息有些震驚,不過後來看了這部影片,才知道與當今AI發展有關係。

影片截圖

影片截圖


因此,我想將看完影片的心得,搭配吳軍課程中《吳軍講GPT.第三講 語言模型是如何進化的》中談到自然語言處理的部分(吳軍也是自然語言處理的專家,曾在Google擔任中日韓搜尋算法發明人),綜合整理一下,作為一種重要發現紀錄(可能對我來講是重要發現😂)。

當然,如果閱讀完歡迎與我分享,或者謬誤或需要改正的地方,也歡迎您的指教!🙏


階段一

在階段一的語言資訊處理上,思路上利用邏輯與分治法,手段上利用通訊中的演算法,並且引入語言模型。


也就是先為語言編碼、讓電腦透過數字運算的方式了解什麼是語言。而在這階段的初期,錯誤率還是不低,但是引入了語言模型後,錯誤率就降低了,從過去的30%左右降低到了10%以內。當識別的錯誤率控制在10%以內,也就是每識別十個詞出錯不到一個詞的時候,就有應用價值了。因為這時候,人可以根據自己的知識糾正那一個錯字。但是離實用還差地遠,不過證明了語言模型有用。著名的李開復先生就是這時期先取得成功的。


了解了語言模型的厲害之後,簡單談談什麼是語言模型。


簡單來說,語言模型就是計算下一個可能出現的詞語的工具。例如,對於輸入 「天」字,語言模型會根據訓練數據,給出多個可能的後續詞語,並為每個詞語分配一個機率。例如:天下、天空、天堂,根據上下文的語意,來計算出在這個語意的情境下,哪個詞的機率使用最高,而來用這個詞。


比如,依照上面的例子。如果情境是講述儒家的相關學說,那麼「天下」兩個字的機率就會比較高;如果是自然科學相關的,例如天空為什麼是藍的,「天空」兩個字的機率就比較高;而和宗教相關的,「天堂」就比較可能出現。


階段二

挖掘語言中更深層的資訊,能有效提高語言模型的能力,但與此同時,也讓計算量變得巨大。


因此,為了讓計算機更有效率地工作,在2000年之後,很多語言模型的研究工作就轉到提高算法效率上了,在思路上還是在利用邏輯與分治法的範疇上努力,需要手工特徵工程的複雜步驟,較為鑽牛角尖,這就需要很多博士生和自然語言處理專家,進行這類的研究與工作


階段三

在思路上改用深度學習(人工智慧),端到端學習。


這是目前進行語言資訊處理的方法。省去了以往自然語言處理不同的語言特徵時,而需要手工特徵工程的複雜步驟。不過,要怎麼彌補資訊與詞語的準確性問題呢?根據資訊理論的原理,輸入的資訊量少、輸出的資訊量多,這中間的差異必須有辦法給補回來,否則輸出的內容裡一定會充滿不確定性。


補充的資訊從哪裡來呢?實際上,都是存在於語言模型中的,需要先把資訊輸入語言模型,這時的語言模型就是所謂產生式的了。GPT中的G,就代表Generative 產生的意思。因此根據影片中所說,目前這階段自然語言的博士生們面臨了失業危機,因為已經不太需要他們進行階段二,手工特徵工程的複雜工作了,這些由端到端的機器學習方法就可以解決了。


未來的階段


思路還是端到端,算法會是全新的,會結合「存取、運算、訓練一體」的晶片,仿造我們的人腦,也就是接收、處理資訊,以及訓練自己的熟悉度達到一體的思維方式。這種思維方式,高效而低能耗。這就像我們人類學開車,在接收路況資訊的同時,也在進行思考,同時也在訓練熟悉度。


結語


目前在語言資訊處理上,往大數據深度學習訓練的方向發展了,就不需要太多的邏輯工作去分類語言特徵。當前語言資訊處理已經不是數學與統計工作了,數學與統計工作端到端的模型就把它做完了,除非資料量不夠,才會用到數學或演算法。


我發現到目前的GPT在產出中文國學領域的內容時,深度還是不夠,或是有明顯資訊錯誤的問題。可見這類的內容在模型訓練上的量還是不夠,還不如直接閱讀書面資料來了解。這是因為OpenAI覺得這些不重要,沒有拿夠多資料去訓練;另外,未來可能會出現特化的生成式AI,這也凸顯國產GPT或中文GPT的重要性


但要注意的是,這不是prompt engineering 提示詞工程的範疇,prompt engineering比較像是怎麼問出品質更好的答案。但如果模型夠強,就不需要prompt engineering。


此外,在AI語言資訊處理,倫理的使用上還有版權問題,還是有待討論的空間。


如果,AI產生的文字已經讓人類分不出真假,還有AI 會一本正經胡說八道的這個特性,會不會導致網路上搜尋資訊的模糊化(充斥著 AI 的回答),對於大眾非專業人士產生鑑別真偽的問題。這問題根據吳軍老師,在專欄上的回答,目前也很難判斷!現在有一本很好的書《現實 +》談到這個問題講得很好,包括談到如何判斷。但是它也給出結論,答案是非常難。不過它給出了一個提示,利用 AI 造假,背後常常有商業目的。


版權的問題,OpenAI 先前也遭遇了風坡,技術的發展與智慧財產權的保障是當今一個難題所在。


最後回到自己,雖然自然語言領域就目前來看沒什麼發展性,但我想還是可以跟著世界的浪潮往國產GPT或中文GPT,相對專業化GPT使用的範疇發展看看,也是一個發展自身更多可能性的道路!


17會員
36內容數
【生之道】一個傳遞中華文化的中介者,提供中華傳統文化智慧之思考。
留言0
查看全部
發表第一個留言支持創作者!
你可能也想看
憂鬱和焦慮打倒了我 也讓我重生 我的成長故事(一) ft. 輔大中文系劉雅芬老師你好 我是貓奴 這是我的Podcast節目 夜班貓奴,節目主要以聊天的形式進行 討論主題式的議題或故事分享。 這一集的主題討論了我在成長過程中,從高中到大學到如今心理狀態的高低起伏,以及我是如何從無意識到有意識到開始改變自己的信念,漸漸找出存在黑暗中的光亮
avatar
我是貓奴MOUNUCH
2024-05-08
Microsoft Designer中文也能用,輕鬆生成圖片讓創作更簡單Microsoft Designer是微軟最推出的AI圖形設計工具,之後會結合在 Office 365 的設計工具,只要輸入關鍵字就能根據你的想法生成出精美的照片,可以用來做社群媒體貼文、賀卡、邀請卡等等,即使沒有設計經驗,也能輕鬆上手。
Thumbnail
avatar
原來可以這樣做
2023-12-03
打中文也可以玩的 AI 製圖丨PicCraft AI 製圖機 |免費 AI 製圖 APP已經紅了好一段間的ChatGPT 讓互動式 AI 掀起一波全民的 AI 熱潮。最近發現一款很好用的免費 AI 製圖 APP~「PicCraft AI 製圖機」。 許多 AI 製圖軟體都是由國外開發,所以大多只有英文版本,因此只能使用英文輸入關鍵字(指令),而這款 APP 是由一位台灣作者所設計,所
Thumbnail
avatar
氣泡水
2023-07-25
中文流行歌曲歌詞其實也是詩的一種我們都知道詩與歌是無法分離的,但是你知道其實當代流行音樂的歌詞也有其詩性的文學性嗎?
Thumbnail
avatar
英系女生阿德麗塔
2022-07-24
Solana|域名鑄造 solana name service 用中文也可以註冊喔寫作投資永遠不嫌晚,這是雙寶老爹的第#058篇關於加密貨幣教學文章,文未還有更多精彩的教學內容!
Thumbnail
avatar
雙寶老爹
2021-12-23
Strikingly|免費簡單中文做網站平台推薦!不會程式也能5分鐘上手企業品牌官網、網路電商、個人品牌形象、大型活動都會有網站架設的需求,但是網站架站需要花專業的軟體工程師人力與時間金錢,對於沒有軟體工程師的企業公司來說,會是一大困擾。今天就來介紹一個中文免費做網站工具推薦--Strikingly,那沒有程式的你,也可以5分鐘快速上手建立自己所需要的網站! 有沒有一
Thumbnail
avatar
今日訊息
2020-04-12
繁體中文也要分兩種的「機戰V」<p>除了中文化外,機戰V還有一點頗為有趣,就是在一個名稱就叫「超級機械人大戰」,一直也都是收機械人動畫的遊戲裡,收了完全沒有「機械人」元素的作品「宇宙戰艦大和號」。</p>
Thumbnail
avatar
鄭立
2017-06-23
【作文課】 中文也是有文法的<p>這句:「一道小小聲,但這時聽起來有點刺耳的掌上型電動玩具,在沙發角落響了起來。」當中「小小聲,但這時聽起來有點刺耳」是形容字句,是用一個句子來當形容詞。形容什麼?聲音。電動玩具的聲音。前面的一道,也指的是聲音,沒錯吧?但是形容詞完了,後面他接的是什麼?「掌上型電動玩具」。然後下半句則是把整個上半句當做主詞,就是「什麼什麼的電動玩具」是主詞,它響了。</p>
Thumbnail
avatar
董籬
2016-07-16