圖源:Lexica
昨天晚上看到了一位北大中文系的學姊從事自然語言處理(NPL)科技工作的文章後,感觸非常深,因為一來我的學習過程和該位學姊非常像,在中文領域和資訊領域都有所涉獵,雖然不像那位學姊那樣那麼專業。二來,是因為中文領域也能和科技技術緊密結合。綜合以上,或許我身為資管系又熱愛中文的我,也能往中文資訊處理這條路發展看看。
文章截圖
不過,今天早上有一位台大資工所的學長看到我發了這條訊息之後,跟我分享了一個談論自然語言處理已經團滅的消息,並且跟我分享一部影片。我起初看了這條訊息有些震驚,不過後來看了這部影片,才知道與當今AI發展有關係。
影片截圖
因此,我想將看完影片的心得,搭配吳軍課程中《吳軍講GPT.第三講 語言模型是如何進化的》中談到自然語言處理的部分(吳軍也是自然語言處理的專家,曾在Google擔任中日韓搜尋算法發明人),綜合整理一下,作為一種重要發現紀錄(可能對我來講是重要發現😂)。
當然,如果閱讀完歡迎與我分享,或者謬誤或需要改正的地方,也歡迎您的指教!🙏
在階段一的語言資訊處理上,思路上利用邏輯與分治法,手段上利用通訊中的演算法,並且引入語言模型。
也就是先為語言編碼、讓電腦透過數字運算的方式了解什麼是語言。而在這階段的初期,錯誤率還是不低,但是引入了語言模型後,錯誤率就降低了,從過去的30%左右降低到了10%以內。當識別的錯誤率控制在10%以內,也就是每識別十個詞出錯不到一個詞的時候,就有應用價值了。因為這時候,人可以根據自己的知識糾正那一個錯字。但是離實用還差地遠,不過證明了語言模型有用。著名的李開復先生就是這時期先取得成功的。
了解了語言模型的厲害之後,簡單談談什麼是語言模型。
簡單來說,語言模型就是計算下一個可能出現的詞語的工具。例如,對於輸入 「天」字,語言模型會根據訓練數據,給出多個可能的後續詞語,並為每個詞語分配一個機率。例如:天下、天空、天堂,根據上下文的語意,來計算出在這個語意的情境下,哪個詞的機率使用最高,而來用這個詞。
比如,依照上面的例子。如果情境是講述儒家的相關學說,那麼「天下」兩個字的機率就會比較高;如果是自然科學相關的,例如天空為什麼是藍的,「天空」兩個字的機率就比較高;而和宗教相關的,「天堂」就比較可能出現。
挖掘語言中更深層的資訊,能有效提高語言模型的能力,但與此同時,也讓計算量變得巨大。
因此,為了讓計算機更有效率地工作,在2000年之後,很多語言模型的研究工作就轉到提高算法效率上了,在思路上還是在利用邏輯與分治法的範疇上努力,需要手工特徵工程的複雜步驟,較為鑽牛角尖,這就需要很多博士生和自然語言處理專家,進行這類的研究與工作
在思路上改用深度學習(人工智慧),端到端學習。
這是目前進行語言資訊處理的方法。省去了以往自然語言處理不同的語言特徵時,而需要手工特徵工程的複雜步驟。不過,要怎麼彌補資訊與詞語的準確性問題呢?根據資訊理論的原理,輸入的資訊量少、輸出的資訊量多,這中間的差異必須有辦法給補回來,否則輸出的內容裡一定會充滿不確定性。
補充的資訊從哪裡來呢?實際上,都是存在於語言模型中的,需要先把資訊輸入語言模型,這時的語言模型就是所謂產生式的了。GPT中的G,就代表Generative 產生的意思。因此根據影片中所說,目前這階段自然語言的博士生們面臨了失業危機,因為已經不太需要他們進行階段二,手工特徵工程的複雜工作了,這些由端到端的機器學習方法就可以解決了。
思路還是端到端,算法會是全新的,會結合「存取、運算、訓練一體」的晶片,仿造我們的人腦,也就是接收、處理資訊,以及訓練自己的熟悉度達到一體的思維方式。這種思維方式,高效而低能耗。這就像我們人類學開車,在接收路況資訊的同時,也在進行思考,同時也在訓練熟悉度。
目前在語言資訊處理上,往大數據深度學習訓練的方向發展了,就不需要太多的邏輯工作去分類語言特徵。當前語言資訊處理已經不是數學與統計工作了,數學與統計工作端到端的模型就把它做完了,除非資料量不夠,才會用到數學或演算法。
我發現到目前的GPT在產出中文國學領域的內容時,深度還是不夠,或是有明顯資訊錯誤的問題。可見這類的內容在模型訓練上的量還是不夠,還不如直接閱讀書面資料來了解。這是因為OpenAI覺得這些不重要,沒有拿夠多資料去訓練;另外,未來可能會出現特化的生成式AI,這也凸顯國產GPT或中文GPT的重要性
但要注意的是,這不是prompt engineering 提示詞工程的範疇,prompt engineering比較像是怎麼問出品質更好的答案。但如果模型夠強,就不需要prompt engineering。
此外,在AI語言資訊處理,倫理的使用上還有版權問題,還是有待討論的空間。
如果,AI產生的文字已經讓人類分不出真假,還有AI 會一本正經胡說八道的這個特性,會不會導致網路上搜尋資訊的模糊化(充斥著 AI 的回答),對於大眾非專業人士產生鑑別真偽的問題。這問題根據吳軍老師,在專欄上的回答,目前也很難判斷!現在有一本很好的書《現實 +》談到這個問題講得很好,包括談到如何判斷。但是它也給出結論,答案是非常難。不過它給出了一個提示,利用 AI 造假,背後常常有商業目的。
版權的問題,OpenAI 先前也遭遇了風坡,技術的發展與智慧財產權的保障是當今一個難題所在。
最後回到自己,雖然自然語言領域就目前來看沒什麼發展性,但我想還是可以跟著世界的浪潮往國產GPT或中文GPT,相對專業化GPT使用的範疇發展看看,也是一個發展自身更多可能性的道路!