NLP 系列:NLP (自然語言處理)是什麼?

更新於 發佈於 閱讀時間約 4 分鐘

文字、語言是生活中不可或缺的一部分,而隨著網路時代的開始,我們更多的活動轉往網路、手機中,而最常見的媒介就是文字(語言)了,不論是新聞、個人心得、心情分享、論文等等,都是透過文字來表達想法。而這麼多的內容,電腦是如何呈現出我們感興趣的內容呢?那首先就是需要讓電腦能夠去解讀、使用文字這種非結構化資料,這就是 NLP (自然語言處理)的基礎概念。

raw-image

目錄

  • 什麼是 NLP?
  • NLP 現今發展
  • NLP 的挑戰
  • NLP 應用以及未來?
  • 參考

什麼是 NLP?


根據 Google Cloud 的定義:「自然語言處理 (NLP) 是人工智慧的分支領域,使用機器學習技術來處理及解讀文字和資料。自然語言辨識和自然語言產生均為 NLP 的類型。」其實不全然,因為Google Cloud的定義更偏向於自身的產品面,而現今潮流的確是以機器學習為主的方式去處理,但過往是以人工制定規則去處理,而非現今透過從資料中學習的機器學習方法。因此,簡單來說,用什麼方法不重要,只要可以讓電腦理解、處理、解讀文字資料進而去應用(如找出相似文章、判斷文章類別等等),都屬於 NLP 的範疇。


NLP 現今發展


NLP 大約是從 1950 年代開始發展,當時著名的就是 IBM 的自動翻譯,此時是規則式的方法,但整體發展不如預期,因為語言的複雜超乎想像,難以透過人工制定規則方式讓電腦去完善的處理。直到1980年代,NLP 引進了機器學習方法,NLP 開始慢慢好轉,主要也是因為計算能力的提升、資料量提升以及主流語言學方式處理的式微(也就是規則式)。直到近代,深度學習方法開始進駐並後續幾乎統治了 NLP 領域,像是2018年BERT 當時統治了大部分的 SOTA


NLP 的挑戰


早期 NLP 的挑戰在於規則過多難以制定


因為日常使用的語言有時候不符合語言規則,但我們仍然可以解讀,但在程式上可能就不符規則導致大量額外規則的出現,導致系統越來越複雜,成效也不佳。


現今 NLP 模型越來越大


隨著深度學習方法引入,各式 NLP 任務(機器翻譯、文章縮減、分類等等)效果都顯著提升,但是基本上深度學習方法依賴於預訓練一個巨大的統計語言模型,越來越變成硬體、資料、運算量的軍備競賽,最著名的就是2020 的GPT-3,有1,750億個參數,只有少數公司有能力去真正使用。


NLP 應用以及未來?


最常見的應用應該就是大家熟知的搜尋引擎了,像是 Google Search 總是可以搜尋到與輸入詞(query)相關的內容,裡面就有大量的 NLP 應用,如語意相似性、字詞比對。這邊也推薦大家如果對搜尋引擎的 NLP 應用,可以看 2021 — Deep Natural Language Processing for LinkedIn Search Systems 去了解,才會發現我們日常非常直覺使用的搜尋引擎,其實蘊含大量開發者的創意以及巧思。現今也越來越多文字資料與圖片資料的結合,如 Open AI 的 DALL- E 2,發展更多 NLP 的可能性。也讓我們拭目以待,NLP 的發展吧!

如果覺得文章有幫助,也希望可以給我一些掌聲👏讓我更有動力繼續分享類似的主題,也歡迎提供任何主題想法哦!


參考







留言
avatar-img
留言分享你的想法!
avatar-img
資料週週New的沙龍
1會員
3內容數
喜歡資料科學的朋友應該都有聽過 NLP(自然語言處理)的大名,日常生活的Gmail、Google Search、Spotify等等應用都有使用這個技術。希望透過這個系列與大家稍微分享一下我個人對於 NLP 的看法,讓我們一起探索這個有趣、迷人的領域吧!
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
前一篇我們已經介紹了四個可以去完成的NLP專案, 7 種 NLP 專案,讓你成為自然語言處理好手 (上) 接下來我們繼續分享另外幾個很常使用的專案 機器翻譯 (Machine Translation)
Thumbnail
前一篇我們已經介紹了四個可以去完成的NLP專案, 7 種 NLP 專案,讓你成為自然語言處理好手 (上) 接下來我們繼續分享另外幾個很常使用的專案 機器翻譯 (Machine Translation)
Thumbnail
自然語言處理(NLP)透過深度學習和大數據,讓電腦理解語言、實現對話、翻譯等功能。然而,NLP也面臨失業風險和數據偏見等挑戰。建立政策法規確保公平使用,關注倫理和法律,實現NLP的可持續發展。
Thumbnail
自然語言處理(NLP)透過深度學習和大數據,讓電腦理解語言、實現對話、翻譯等功能。然而,NLP也面臨失業風險和數據偏見等挑戰。建立政策法規確保公平使用,關注倫理和法律,實現NLP的可持續發展。
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
在這個數位時代,人工智能(AI)技術不斷改變著我們生活的各個方面。在眾多AI應用中,自然語言處理(NLP)技術的發展尤為迅速。而今天,我們將深入探討其中一個最具影響力的NLP應用:Autogpt。
Thumbnail
在這個數位時代,人工智能(AI)技術不斷改變著我們生活的各個方面。在眾多AI應用中,自然語言處理(NLP)技術的發展尤為迅速。而今天,我們將深入探討其中一個最具影響力的NLP應用:Autogpt。
Thumbnail
在正式以比較技術面角度來認識 ChatGPT / GPT 之前,我們先用幾個簡單的例子來認識 ChatGPT 以及語言模型可以做到怎樣的事情。 什麼是 ChatGPT? 簡單來說明,ChatGPT 是一個背後使用 GPT 語言模型的對話機器人,而它可以做什麼事情了?我們先來使用幾個常見的語言相關的任
Thumbnail
在正式以比較技術面角度來認識 ChatGPT / GPT 之前,我們先用幾個簡單的例子來認識 ChatGPT 以及語言模型可以做到怎樣的事情。 什麼是 ChatGPT? 簡單來說明,ChatGPT 是一個背後使用 GPT 語言模型的對話機器人,而它可以做什麼事情了?我們先來使用幾個常見的語言相關的任
Thumbnail
距離ChatGPT上線也快四個月了,雖然網路上的相關文章已經不少,但為了點擊率與完讀率,大多篇幅都不敢太長,在理解門檻較高的細節上,也很常避而不談,不容易滿足想對這個風潮的前因後果有更深了解的人。今年三月出版的《瘋ChatGPT》在則這一塊做了很不錯的統整,應能符合大多數求知慾旺盛的讀者們的期待。
Thumbnail
距離ChatGPT上線也快四個月了,雖然網路上的相關文章已經不少,但為了點擊率與完讀率,大多篇幅都不敢太長,在理解門檻較高的細節上,也很常避而不談,不容易滿足想對這個風潮的前因後果有更深了解的人。今年三月出版的《瘋ChatGPT》在則這一塊做了很不錯的統整,應能符合大多數求知慾旺盛的讀者們的期待。
Thumbnail
什麼是LLM? 根據Meta AI的文章提到,大型語言模型是具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量文字訓練,能夠閱讀並回答問題或者生成新的文字。 同時LLM們,不一定只能去產新的文字,而是端看參數是什麼,如果參數的
Thumbnail
什麼是LLM? 根據Meta AI的文章提到,大型語言模型是具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量文字訓練,能夠閱讀並回答問題或者生成新的文字。 同時LLM們,不一定只能去產新的文字,而是端看參數是什麼,如果參數的
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News