文字、語言是生活中不可或缺的一部分,而隨著網路時代的開始,我們更多的活動轉往網路、手機中,而最常見的媒介就是文字(語言)了,不論是新聞、個人心得、心情分享、論文等等,都是透過文字來表達想法。而這麼多的內容,電腦是如何呈現出我們感興趣的內容呢?那首先就是需要讓電腦能夠去解讀、使用文字這種非結構化資料,這就是 NLP (自然語言處理)的基礎概念。
目錄
- 什麼是 NLP?
- NLP 現今發展
- NLP 的挑戰
- NLP 應用以及未來?
- 參考
什麼是 NLP?
根據 Google Cloud 的定義:「自然語言處理 (NLP) 是人工智慧的分支領域,使用機器學習技術來處理及解讀文字和資料。自然語言辨識和自然語言產生均為 NLP 的類型。」其實不全然,因為Google Cloud的定義更偏向於自身的產品面,而現今潮流的確是以機器學習為主的方式去處理,但過往是以人工制定規則去處理,而非現今透過從資料中學習的機器學習方法。因此,簡單來說,用什麼方法不重要,只要可以讓電腦理解、處理、解讀文字資料進而去應用(如找出相似文章、判斷文章類別等等),都屬於 NLP 的範疇。
NLP 現今發展
NLP 大約是從 1950 年代開始發展,當時著名的就是
IBM 的自動翻譯,此時是
規則式的方法,但整體發展不如預期,因為語言的複雜超乎想像,難以透過人工制定規則方式讓電腦去完善的處理。直到1980年代,NLP 引進了機器學習方法,NLP 開始慢慢好轉,主要也是因為計算能力的提升、資料量提升以及主流語言學方式處理的式微(也就是規則式)。直到近代,深度學習方法開始進駐並後續幾乎統治了 NLP 領域,像是2018年
BERT 當時統治了大部分的
SOTA 。
NLP 的挑戰
早期 NLP 的挑戰在於規則過多難以制定
因為日常使用的語言有時候不符合語言規則,但我們仍然可以解讀,但在程式上可能就不符規則導致大量額外規則的出現,導致系統越來越複雜,成效也不佳。
現今 NLP 模型越來越大
隨著深度學習方法引入,各式 NLP 任務(機器翻譯、文章縮減、分類等等)效果都顯著提升,但是基本上深度學習方法依賴於預訓練一個巨大的
統計語言模型,越來越變成硬體、資料、運算量的軍備競賽,最著名的就是2020 的
GPT-3,有1,750億個參數,只有少數公司有能力去真正使用。
NLP 應用以及未來?
如果覺得文章有幫助,也希望可以給我一些掌聲👏讓我更有動力繼續分享類似的主題,也歡迎提供任何主題想法哦!
參考