NLP 系列:NLP (自然語言處理)是什麼?

更新於 發佈於 閱讀時間約 3 分鐘
文字、語言是生活中不可或缺的一部分,而隨著網路時代的開始,我們更多的活動轉往網路、手機中,而最常見的媒介就是文字(語言)了,不論是新聞、個人心得、心情分享、論文等等,都是透過文字來表達想法。而這麼多的內容,電腦是如何呈現出我們感興趣的內容呢?那首先就是需要讓電腦能夠去解讀、使用文字這種非結構化資料,這就是 NLP (自然語言處理)的基礎概念。
NLP Picture LeeMeng Website

目錄

  • 什麼是 NLP?
  • NLP 現今發展
  • NLP 的挑戰
  • NLP 應用以及未來?
  • 參考

什麼是 NLP?


根據 Google Cloud 的定義:「自然語言處理 (NLP) 是人工智慧的分支領域,使用機器學習技術來處理及解讀文字和資料。自然語言辨識和自然語言產生均為 NLP 的類型。」其實不全然,因為Google Cloud的定義更偏向於自身的產品面,而現今潮流的確是以機器學習為主的方式去處理,但過往是以人工制定規則去處理,而非現今透過從資料中學習的機器學習方法。因此,簡單來說,用什麼方法不重要,只要可以讓電腦理解、處理、解讀文字資料進而去應用(如找出相似文章、判斷文章類別等等),都屬於 NLP 的範疇。

NLP 現今發展


NLP 大約是從 1950 年代開始發展,當時著名的就是 IBM 的自動翻譯,此時是規則式的方法,但整體發展不如預期,因為語言的複雜超乎想像,難以透過人工制定規則方式讓電腦去完善的處理。直到1980年代,NLP 引進了機器學習方法,NLP 開始慢慢好轉,主要也是因為計算能力的提升、資料量提升以及主流語言學方式處理的式微(也就是規則式)。直到近代,深度學習方法開始進駐並後續幾乎統治了 NLP 領域,像是2018年BERT 當時統治了大部分的 SOTA

NLP 的挑戰


早期 NLP 的挑戰在於規則過多難以制定


因為日常使用的語言有時候不符合語言規則,但我們仍然可以解讀,但在程式上可能就不符規則導致大量額外規則的出現,導致系統越來越複雜,成效也不佳。


現今 NLP 模型越來越大


隨著深度學習方法引入,各式 NLP 任務(機器翻譯、文章縮減、分類等等)效果都顯著提升,但是基本上深度學習方法依賴於預訓練一個巨大的統計語言模型,越來越變成硬體、資料、運算量的軍備競賽,最著名的就是2020 的GPT-3,有1,750億個參數,只有少數公司有能力去真正使用。

NLP 應用以及未來?


最常見的應用應該就是大家熟知的搜尋引擎了,像是 Google Search 總是可以搜尋到與輸入詞(query)相關的內容,裡面就有大量的 NLP 應用,如語意相似性、字詞比對。這邊也推薦大家如果對搜尋引擎的 NLP 應用,可以看 2021 — Deep Natural Language Processing for LinkedIn Search Systems 去了解,才會發現我們日常非常直覺使用的搜尋引擎,其實蘊含大量開發者的創意以及巧思。現今也越來越多文字資料與圖片資料的結合,如 Open AI 的 DALL- E 2,發展更多 NLP 的可能性。也讓我們拭目以待,NLP 的發展吧!
如果覺得文章有幫助,也希望可以給我一些掌聲👏讓我更有動力繼續分享類似的主題,也歡迎提供任何主題想法哦!

參考

喜歡資料科學的朋友應該都有聽過 NLP(自然語言處理)的大名,日常生活的Gmail、Google Search、Spotify等等應用都有使用這個技術。希望透過這個系列與大家稍微分享一下我個人對於 NLP 的看法,讓我們一起探索這個有趣、迷人的領域吧!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
一份研究指出,人類在關係中外遇的機率,幾乎是所有物種當中最高,這份研究也顯示,外遇的比例竟然遠超乎我們到想像,甚至可以說是高得離譜⋯⋯
Thumbnail
這篇文章探討了分手的多種原因,特別是金錢觀念、性觀念與感情變淡等問題,並分析各自的挽回機率,透過NLP愛情心理學的技巧,文章提供了有效的溝通與情感重建策略,幫助人們理解與應對分手的根本原因。
Thumbnail
本文探討生成式 AI 與自然語言處理 (NLP) 的關係,強調兩者如何相互影響並共同推動人工智能的發展。生成式 AI 能夠通過學習大量數據生成文本、音樂和圖像,而 NLP 則幫助機器理解和產生人類語言。本文還介紹了生成式 AI 的多種應用,包括機器翻譯、文本摘要和對話系統,並展望未來技術的創新潛能。
Thumbnail
自然語言處理 (NLP) 與神經語言程式學 (NLP) 是什麼?前者為使機器理解人類語言,後者則研究如何透過了解大腦運作,使用語言改變人類的思考與行為。本文簡短探討了神經語言程式學的基礎、方法、及應用,以及提出一些疑問與反思。
Thumbnail
本文介紹了流行的Python套件NLTK(Natural Language Toolkit)的主要特點、功能和在中文和英文語料上的應用。從安裝到實際應用,深入介紹了分詞、停用詞去除、詞性標註、命名實體識別等NLP任務的具體實現和步驟,幫助讀者理解和應用NLTK。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
Thumbnail
溝通的目的不是僅僅提供信息,而是讓對方接收並理解信息。 NLP的兩個假設前提:溝通的意義決定於對方的回饋、沒有失敗,只有回饋。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
一份研究指出,人類在關係中外遇的機率,幾乎是所有物種當中最高,這份研究也顯示,外遇的比例竟然遠超乎我們到想像,甚至可以說是高得離譜⋯⋯
Thumbnail
這篇文章探討了分手的多種原因,特別是金錢觀念、性觀念與感情變淡等問題,並分析各自的挽回機率,透過NLP愛情心理學的技巧,文章提供了有效的溝通與情感重建策略,幫助人們理解與應對分手的根本原因。
Thumbnail
本文探討生成式 AI 與自然語言處理 (NLP) 的關係,強調兩者如何相互影響並共同推動人工智能的發展。生成式 AI 能夠通過學習大量數據生成文本、音樂和圖像,而 NLP 則幫助機器理解和產生人類語言。本文還介紹了生成式 AI 的多種應用,包括機器翻譯、文本摘要和對話系統,並展望未來技術的創新潛能。
Thumbnail
自然語言處理 (NLP) 與神經語言程式學 (NLP) 是什麼?前者為使機器理解人類語言,後者則研究如何透過了解大腦運作,使用語言改變人類的思考與行為。本文簡短探討了神經語言程式學的基礎、方法、及應用,以及提出一些疑問與反思。
Thumbnail
本文介紹了流行的Python套件NLTK(Natural Language Toolkit)的主要特點、功能和在中文和英文語料上的應用。從安裝到實際應用,深入介紹了分詞、停用詞去除、詞性標註、命名實體識別等NLP任務的具體實現和步驟,幫助讀者理解和應用NLTK。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
Thumbnail
溝通的目的不是僅僅提供信息,而是讓對方接收並理解信息。 NLP的兩個假設前提:溝通的意義決定於對方的回饋、沒有失敗,只有回饋。