NLP 系列：NLP (自然語言處理)是什麼？

更新於 2024/12/31發佈於 2023/01/01閱讀時間約 4 分鐘

文字、語言是生活中不可或缺的一部分，而隨著網路時代的開始，我們更多的活動轉往網路、手機中，而最常見的媒介就是文字(語言)了，不論是新聞、個人心得、心情分享、論文等等，都是透過文字來表達想法。而這麼多的內容，電腦是如何呈現出我們感興趣的內容呢？那首先就是需要讓電腦能夠去解讀、使用文字這種非結構化資料，這就是 NLP (自然語言處理)的基礎概念。

什麼是 NLP？

根據 Google Cloud 的定義：「自然語言處理 (NLP) 是人工智慧的分支領域，使用機器學習技術來處理及解讀文字和資料。自然語言辨識和自然語言產生均為 NLP 的類型。」其實不全然，因為Google Cloud的定義更偏向於自身的產品面，而現今潮流的確是以機器學習為主的方式去處理，但過往是以人工制定規則去處理，而非現今透過從資料中學習的機器學習方法。因此，簡單來說，用什麼方法不重要，只要可以讓電腦理解、處理、解讀文字資料進而去應用(如找出相似文章、判斷文章類別等等)，都屬於 NLP 的範疇。

NLP 現今發展

NLP 大約是從 1950 年代開始發展，當時著名的就是 IBM 的自動翻譯，此時是規則式的方法，但整體發展不如預期，因為語言的複雜超乎想像，難以透過人工制定規則方式讓電腦去完善的處理。直到1980年代，NLP 引進了機器學習方法，NLP 開始慢慢好轉，主要也是因為計算能力的提升、資料量提升以及主流語言學方式處理的式微(也就是規則式)。直到近代，深度學習方法開始進駐並後續幾乎統治了 NLP 領域，像是2018年BERT 當時統治了大部分的 SOTA 。

NLP 的挑戰

早期 NLP 的挑戰在於規則過多難以制定

因為日常使用的語言有時候不符合語言規則，但我們仍然可以解讀，但在程式上可能就不符規則導致大量額外規則的出現，導致系統越來越複雜，成效也不佳。

現今 NLP 模型越來越大

隨著深度學習方法引入，各式 NLP 任務(機器翻譯、文章縮減、分類等等)效果都顯著提升，但是基本上深度學習方法依賴於預訓練一個巨大的統計語言模型，越來越變成硬體、資料、運算量的軍備競賽，最著名的就是2020 的GPT-3，有1,750億個參數，只有少數公司有能力去真正使用。

NLP 應用以及未來？

最常見的應用應該就是大家熟知的搜尋引擎了，像是 Google Search 總是可以搜尋到與輸入詞(query)相關的內容，裡面就有大量的 NLP 應用，如語意相似性、字詞比對。這邊也推薦大家如果對搜尋引擎的 NLP 應用，可以看 2021 — Deep Natural Language Processing for LinkedIn Search Systems 去了解，才會發現我們日常非常直覺使用的搜尋引擎，其實蘊含大量開發者的創意以及巧思。現今也越來越多文字資料與圖片資料的結合，如 Open AI 的 DALL- E 2，發展更多 NLP 的可能性。也讓我們拭目以待，NLP 的發展吧！

如果覺得文章有幫助，也希望可以給我一些掌聲👏讓我更有動力繼續分享類似的主題，也歡迎提供任何主題想法哦！

參考

資料週週New的沙龍NLP（自然語言處理）系列

留言

留言分享你的想法！

資料週週New的沙龍

1會員

3內容數

喜歡資料科學的朋友應該都有聽過 NLP（自然語言處理）的大名，日常生活的Gmail、Google Search、Spotify等等應用都有使用這個技術。希望透過這個系列與大家稍微分享一下我個人對於 NLP 的看法，讓我們一起探索這個有趣、迷人的領域吧！

你可能也想看

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

生之道 ShengZhiDao

中文系也能和科技產生連接：略分享語言資訊處理的階段發展與趨勢

這篇文章討論了自然語言處理技術的發展歷程，從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足，並提出了自然語言處理領域的倫理使用和版權問題，以及對大眾的影響。最後，作者探討了個人在自然語言領域的發展可能性。

#語言#資訊#模型

2024/06/05

生之道 ShengZhiDao

中文系也能和科技產生連接：略分享語言資訊處理的階段發展與趨勢

#語言#資訊#模型

2024/06/05

凱文馬拉穆の雪橇犬星球

7 種 NLP 專案，讓你成為自然語言處理好手 (下)

前一篇我們已經介紹了四個可以去完成的NLP專案， 7 種 NLP 專案，讓你成為自然語言處理好手 (上) 接下來我們繼續分享另外幾個很常使用的專案機器翻譯 (Machine Translation)

#Tensor#模型#NLP

2023/11/14

凱文馬拉穆の雪橇犬星球

7 種 NLP 專案，讓你成為自然語言處理好手 (下)

#Tensor#模型#NLP

2023/11/14

Victoria的沙龍

語言與智能的交融：探索自然語言處理(NLP)的奇蹟與挑戰

自然語言處理(NLP)透過深度學習和大數據，讓電腦理解語言、實現對話、翻譯等功能。然而，NLP也面臨失業風險和數據偏見等挑戰。建立政策法規確保公平使用，關注倫理和法律，實現NLP的可持續發展。

#自然語言處理#人工智慧#AI

2023/08/23

Victoria的沙龍

語言與智能的交融：探索自然語言處理(NLP)的奇蹟與挑戰

#自然語言處理#人工智慧#AI

2023/08/23

Ted Chen的沙龍

ChatGPT 是什麼？ ChatGPT 的原理

這篇文章介紹了ChatGPT，一種大型的語言模型，能以自然語言回答問題，但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習，通過大量的網路資料進行訓練，讓模型能進行文字接龍。儘管GPT系列經歷了多次演進，並需用大量的訓練資料，它的問答能力仍有待提升。然而，透過不斷優化，我們已有了更進一步的版本

#ChatGPT#GPT技術#語言模型

2023/05/26