命名實體識別 (Named Entity Recognition, NER)

更新於 發佈於 閱讀時間約 5 分鐘

「命名實體識別 (Named Entity Recognition, NER)」是自然語言處理 (NLP) 領域的一個重要任務,旨在從文本中識別並分類出具有特定意義的實體,例如人名、地名、組織機構名、日期、時間、數字、貨幣、百分比、產品名等等。

簡單來說,NER 的目標是讓電腦能夠自動地找到文本中提到的「是什麼」和「是誰」。

NER 的目標:

NER 的主要目標是將文本中的詞語或短語標記為預定義的類別。這些類別通常包括:

  • 人名 (PER): 例如,"唐納·川普"、"馬克·祖克伯格"、"蔡英文"。
  • 地名 (LOC): 例如,"台北"、"美國"、"喜馬拉雅山"。
  • 組織機構名 (ORG): 例如,"Google"、"蘋果公司"、"世界衛生組織"。
  • 日期 (DATE): 例如,"2023年10月26日"、"下週三"、"五月"。
  • 時間 (TIME): 例如,"下午三點"、"早上八點半"、"中午"。
  • 貨幣 (MONEY): 例如,"新台幣一千元"、"$100"、"50 歐元"。
  • 百分比 (PERCENT): 例如,"25%"、"百分之十"。
  • 產品名 (PRODUCT): 例如,"iPhone 15"、"Windows 11"、"可口可樂"。
  • 事件 (EVENT): 例如,"美國總統大選"、"奧運會"、"雙十一購物節"。
  • 設施 (FAC): 例如,"台北101"、"舊金山國際機場"。
  • 語言 (LANGUAGE): 例如,"英語"、"中文"、"法語"。

當然,根據具體的應用場景,NER 的類別還可以更細化或包含其他類型的實體。

NER 的常見方法:

  1. 基於規則的方法 (Rule-based Approach):
    • 這種方法依賴於人工編寫的規則和模式來識別命名實體。規則可以基於詞彙、語法、標點符號等。例如,識別以大寫字母開頭並跟隨特定詞語的詞組可能是一個人名或組織機構名的候選。 優點是易於理解和實現,但難以處理複雜的語言變化和上下文。
  2. 機器學習方法 (Machine Learning Approach):
    • 這種方法通常需要標註好的訓練數據(文本及其對應的實體標籤)。 常用的機器學習模型包括: 隱馬爾可夫模型 (Hidden Markov Model, HMM) 條件隨機場 (Conditional Random Field, CRF):CRF 在 NER 任務中表現出色,因為它能考慮上下文信息和標籤之間的依賴關係。 支持向量機 (Support Vector Machines, SVM) 決策樹和隨機森林 (Decision Trees and Random Forests) 在訓練模型之前,文本通常需要經過特徵工程,例如詞語本身的特性、詞性、詞語在句子中的位置等。
  3. 深度學習方法 (Deep Learning Approach):
    • 深度學習模型,例如: 循環神經網路 (Recurrent Neural Networks, RNNs),特別是 LSTM 和 GRU: 適用於處理文本序列,能夠捕捉上下文信息。 卷積神經網路 (Convolutional Neural Networks, CNNs): 可以用於提取局部特徵。 Transformer 模型(例如 BERT、RoBERTa、DistilBERT): 在 NER 任務中表現出了最先進的性能,因為它們能夠捕捉長距離依賴和更豐富的語義信息。這些模型通常會利用預訓練的詞嵌入和強大的上下文表示能力。 深度學習模型通常可以直接處理詞嵌入,並自動學習文本中的有效特徵,而無需太多手動的特徵工程。

NER 的應用:

NER 技術在許多領域都有廣泛的應用:

  • 信息抽取: 從大量的文本中自動提取關鍵信息,例如新聞報導中的人物、地點、事件。
  • 問答系統: 幫助系統理解問題中的實體,以便更精準地找到答案。
  • 文本摘要: 識別文本中的關鍵實體,有助於生成更具信息量的摘要。
  • 機器翻譯: 識別源語言和目標語言中的命名實體,有助於提高翻譯的準確性。
  • 知識圖譜構建: 從文本中提取實體和它們之間的關係,用於構建知識圖譜。
  • 客戶服務: 自動識別客戶在反饋中提到的產品、組織或問題。
  • 金融分析: 從金融新聞和報告中提取公司名稱、股票代碼等信息。
  • 醫療保健: 從電子病歷中提取疾病名稱、藥物名稱、治療方法等信息。

總之,命名實體識別是 NLP 中一個至關重要的任務,它可以幫助計算機理解文本中的關鍵信息,並為許多下游 NLP 應用提供支持。隨著深度學習技術的發展,NER 的準確性和效率得到了顯著的提高。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
2會員
149內容數
現職 : 富邦建設資訊副理 經濟部 iPAS AI應用規劃師
2025/05/25
「文本分類 (Text Classification)」是自然語言處理 (NLP) 領域的一個核心任務,指的是將文本數據(例如文件、句子、段落)自動地分配到預定義的類別或標籤中的過程。目標是訓練一個模型,使其能夠根據文本的內容,準確地判斷該文本屬於哪個或哪些類別。 你可以將文本分類想像成圖書館員根
2025/05/25
「文本分類 (Text Classification)」是自然語言處理 (NLP) 領域的一個核心任務,指的是將文本數據(例如文件、句子、段落)自動地分配到預定義的類別或標籤中的過程。目標是訓練一個模型,使其能夠根據文本的內容,準確地判斷該文本屬於哪個或哪些類別。 你可以將文本分類想像成圖書館員根
2025/05/25
「意見探勘 (Opinion Mining)」是一個與情感分析密切相關的自然語言處理 (NLP) 領域,它更側重於從文本中識別、提取和總結人們對特定實體(例如產品、服務、組織、個人、事件、議題等)所表達的意見、態度、評價和情感。 你可以將意見探勘看作是情感分析的更細緻化和目標化的版本。情感分析通常
2025/05/25
「意見探勘 (Opinion Mining)」是一個與情感分析密切相關的自然語言處理 (NLP) 領域,它更側重於從文本中識別、提取和總結人們對特定實體(例如產品、服務、組織、個人、事件、議題等)所表達的意見、態度、評價和情感。 你可以將意見探勘看作是情感分析的更細緻化和目標化的版本。情感分析通常
2025/05/25
「情感分析 (Sentiment Analysis)」是自然語言處理 (NLP) 領域的一個重要分支,其目標是識別和提取文本中所表達的主觀情感、態度、觀點或情緒傾向。簡單來說,情感分析試圖判斷一段文本是正面的、負面的還是中性的。 你也可以將情感分析理解為讓電腦能夠讀懂人類文字中的情緒。 情感分析
2025/05/25
「情感分析 (Sentiment Analysis)」是自然語言處理 (NLP) 領域的一個重要分支,其目標是識別和提取文本中所表達的主觀情感、態度、觀點或情緒傾向。簡單來說,情感分析試圖判斷一段文本是正面的、負面的還是中性的。 你也可以將情感分析理解為讓電腦能夠讀懂人類文字中的情緒。 情感分析
看更多
你可能也想看
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
TOMICA第一波推出吉伊卡哇聯名小車車的時候馬上就被搶購一空,一直很扼腕當時沒有趕緊入手。前陣子閒來無事逛蝦皮,突然發現幾家商場都又開始重新上架,價格也都回到正常水準,估計是官方又再補了一批貨,想都沒想就立刻下單! 同文也跟大家分享近期蝦皮購物紀錄、好用推薦、蝦皮分潤計畫的聯盟行銷!
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
產品經理想做 AI 產品要懂哪些基本名詞?這篇整理我過往參與 AI 自傳生成時,和 NLP 工程師有討論到的概念,AI 應用目前還尚未普及,未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。
Thumbnail
產品經理想做 AI 產品要懂哪些基本名詞?這篇整理我過往參與 AI 自傳生成時,和 NLP 工程師有討論到的概念,AI 應用目前還尚未普及,未來我會再陸續整理不同功能或產業需要知道的 AI 基礎知識。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
本篇文章分享了對創意和靈感來源的深入思考,以及如何將其轉化為實際的成果或解決方案的過程。透過學習、資料收集、練習、創新等方法,提出了將創意落實的思路和技巧。同時介紹了AI在外顯知識的自動化應用,以及對其潛在發展方向的討論。最後探討了傳統機器學習技術在模擬中的應用案例和對AI世界的影響。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
AI 創作內容 (AIGC) 技術突飛猛進,人類已經越來越難辨識眼前所見照片、影片的真實度。為了讓使用者可以區別哪些是由 AI 產生的「非真實內容」,進而信任圖片的真實性,如:微軟、Adobe、Google、Midjourney、Nikon…等 AI 技術大廠紛紛建立起 AI 內容識別技術,幫助使用
Thumbnail
AI 創作內容 (AIGC) 技術突飛猛進,人類已經越來越難辨識眼前所見照片、影片的真實度。為了讓使用者可以區別哪些是由 AI 產生的「非真實內容」,進而信任圖片的真實性,如:微軟、Adobe、Google、Midjourney、Nikon…等 AI 技術大廠紛紛建立起 AI 內容識別技術,幫助使用
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News