【AI幫幫忙】機器如何識別我們的特徵?關鍵的Named Entity Recognition(NER)技術

更新於 發佈於 閱讀時間約 6 分鐘

Named Entity Recognition(NER)是一種自然語言處理技術,它的目的是識別文本中的具有特定意義的實體(也稱為命名實體)。這些命名實體可以是人名、地名、組織名、日期、時間、數量等等。

這項技術可以幫助機器更好地理解文本,提高自然語言處理的精度和效率,也可以用於許多應用場景,例如搜索引擎、機器翻譯、自動摘要、問答系統等。

舉例來說

● 台灣疫情近日爆發,中央流行疫情指揮中心每天都會公布最新的確診數字。在這個句子中,「台灣"」和 「中央流行疫情指揮中心"」都是命名實體,「確診數字」 則是一個數量實體。

● 台積電是一家全球知名的半導體公司,總部位於新竹科學園區。在這個句子中,「台積電」 和 「新竹科學園區」 都是命名實體,而「半導體公司」則為組織實體。

過NER的技術就能夠很明確的從一段語句中得出一些重要的關鍵資訊, 而透過這些重要的關鍵資訊, 我們可以猜測意圖、情緒、甚至做出對應的處理, 就如同我們人與人交流的過程中, 從對方的對話中嘗試理解對方的意圖一樣, 而NER就是很簡單的將這些實體辨識出來, 至於應該做什麼處理就是另一篇故事囉。

幾個重要的步驟


數據收集

首先,你需要從可靠來源收集大量的標註好的文本數據。這些數據需要包含實體類別的標記信息,例如人名、地名、組織名等等。可以使用現成的標註好的語料庫,或者自己標註數據。

數據預處理

在訓練之前,你需要對數據進行預處理,例如斷詞、分句、標註等等。可以使用現成的斷詞工具、分句工具和標註工具來實現。

特徵設計

接下來,你需要設計一組特徵來表示每個詞語。常用的特徵包括詞向量、詞性標記、上下文特徵、字形特徵等等。你可以根據實際情況選擇不同的特徵,也可以組合多種特徵。

模型設計

在特徵設計完成後,你需要選擇一個合適的模型來進行訓練。常見的模型包括最大熵模型、隱馬爾可夫模型、條件隨機場模型和深度學習模型等。你可以根據實際情況選擇不同的模型,也可以使用集成學習方法組合多個模型。

模型訓練

在模型設計完成後,你需要使用訓練數據來訓練模型。訓練過程中需要調節模型的參數,以達到最好的效果。可以使用交叉驗證等方法來選擇最優的參數。

模型評估

在模型訓練完成後,你需要使用測試數據來評估模型的性能。常見的評估指標包括準確率、召回率、F1 值等等。

工具庫

以下是幾個著名的NER工具庫:

SpaCy: SpaCy是一個流行的Python NLP庫,其中包括一個高效的NER模型,支持多種語言,包括英語、德語、西班牙語、法語等。SpaCy的NER模型可以快速且準確地識別文本中的實體,同時還支持自定義實體類別和擴充詞庫等功能。

Stanford NLP: Stanford NLP是另一個著名的NLP工具庫,其中包括一個強大的NER模型,支持多種語言,包括英語、漢語等。Stanford NLP的NER模型基於深度學習技術,能夠進行高精度的實體識別,同時還支持自定義實體類別和擴充詞庫等功能。

AllenNLP:AllenNLP是一個基於PyTorch的NLP庫,其中包括一個高效的NER模型,支持多種語言,包括英語、德語、西班牙語等。AllenNLP的NER模型基於深度學習技術,能夠進行高精度的實體識別,同時還支持自定義實體類別和擴充詞庫等功能。

常見的幾種方法

目前常見的方法包括規則法和機器學習法,後來發展深度學習技術甚至到近期的遷移式學習。


規則法是通過設計一系列規則來識別文本中的實體,這些規則可以基於語法、語義等方面進行設計,也可以利用正則表達式等工具進行匹配。規則法的優點是易於理解和調整,適用於處理特定領域的數據,但是需要手動編寫規則,對數據的泛化能力較差。

機器學習法則是基於標註好的數據集進行訓練,建立統計模型對實體進行識別和標記。機器學習法的優點是可以自動學習規律,具有較好的泛化能力,但需要標註大量的數據集,訓練和調優較為耗時。

深度學習技術在NER領域也有了廣泛的應用,如基於循環神經網絡(RNN)的模型和基於Transformer的模型,這些模型在大規模數據下具有很好的效果,但需要較大的計算資源和訓練時間。

結語

有了Named Entity Recognition之後讓機器更讀得懂我們的特徵,而藉由這些特徵搭配龐大的數據量,可以快速的統計出可能的意圖,藉由這些意圖進行後續的分析甚至聰明的推薦,進而發展更多的AI以更快更準確的角色輔助我們完成繁瑣工作,至於AI會有思考意識嗎? 至少目前尚未有大幅度的感受,基本上還是在統計過去數據推估未來概率上發展,確實ChatGPT的出現讓我們眼睛為之一亮,也可能是AI發展史上的重大里程碑,唯一不變的是我們人類也要不斷的精進,不要讓繁瑣的工作成為我們唯一的技能,導致被淘汰的命運。

喜歡撰寫文章的你,不妨來了解一下:

Web3.0時代下為創作者、閱讀者打造的專屬共贏平台 - 為什麼要加入?

歡迎加入一起練習寫作,賺取知識,累積財富!

留言
avatar-img
留言分享你的想法!
avatar-img
阿Han的沙龍
129會員
285內容數
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
阿Han的沙龍的其他內容
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/04/23
我們在「【🤖 cursor AI】如何在ubuntu 24.04安裝」有分享如何在Ubuntu安裝cursro這套AI編輯器, 使用起來大幅度的提昇開發效率, 但仍有些問題點需要克服, 比如說: LLM壓根不知道我們的數據庫長怎樣啊? 怎麼分析結構呢? 假設文檔又不足的狀況下更是艱辛, 如果LLM
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/12
我們在「【語音合成技術 - GPT-SoVITS】讓機器說人話的語音生成服務」分享了語音合成技術, 該套GPT-SoVITS也非常的出色, 但效能有點不是非常理想, 加上需要GPU才能達到較佳的體驗, 如此一來成本就會有點高了, 因此我們找了另外一套MeloTTS, 這一套強調CPU推理非常的快!
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
2025/03/05
我們在「【語音合成技術 - GPT-SoVITS】如何架設API伺服器」分享如何架設API V3版本的TTS服務, 但發音的部份似乎只有早期的API版本才使用到g2pw這類的技術, 因此我們可能會需要將API退回舊版, 在這裡我們也整理了早期版本api與api_v2的一些差異, 期望幫助到正在面臨選
Thumbnail
看更多
你可能也想看
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
介紹朋友新開的蝦皮選物店『10樓2選物店』,並分享方格子與蝦皮合作的分潤計畫,註冊流程簡單,0成本、無綁約,推薦給想增加收入的讀者。
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
當你邊吃粽子邊看龍舟競賽直播的時候,可能會順道悼念一下2300多年前投江的屈原。但你知道端午節及其活動原先都與屈原毫無關係嗎?這是怎麼回事呢? 本文深入探討端午節設立初衷、粽子、龍舟競渡與屈原自沉四者。看完這篇文章,你就會對端午、粽子、龍舟和屈原的四角關係有新的認識喔。那就讓我們一起解開謎團吧!
Thumbnail
神經處理單元(NPU)主要用於加速人工智慧(AI)和機器學習(ML)任務。 以下是一些主要的應用領域和使用者: AI和機器學習:NPU是人工智慧和機器學習領域的直接受益者。這些技術依賴數據而蓬勃發展,NPU擅長消化和解釋大量資料集,使機器能夠以前所未有的速度學習。 智慧型設備和物聯網:在智慧型
Thumbnail
神經處理單元(NPU)主要用於加速人工智慧(AI)和機器學習(ML)任務。 以下是一些主要的應用領域和使用者: AI和機器學習:NPU是人工智慧和機器學習領域的直接受益者。這些技術依賴數據而蓬勃發展,NPU擅長消化和解釋大量資料集,使機器能夠以前所未有的速度學習。 智慧型設備和物聯網:在智慧型
Thumbnail
「台灣是我們非常珍貴的夥伴的集中地,NVIDIA的一切都從這裡開始。我們的夥伴和銷售團隊,從台灣把這一切帶到全世界。台灣與輝達的合作,創造了全世界的AI基礎架構」。這是黃仁勳在台大演講的開場白。台灣是現在全球半導體和 AI 的重鎮。頂尖的技術和優秀的人才,將世界帶到台灣。 面對台灣產業和人民的
Thumbnail
「台灣是我們非常珍貴的夥伴的集中地,NVIDIA的一切都從這裡開始。我們的夥伴和銷售團隊,從台灣把這一切帶到全世界。台灣與輝達的合作,創造了全世界的AI基礎架構」。這是黃仁勳在台大演講的開場白。台灣是現在全球半導體和 AI 的重鎮。頂尖的技術和優秀的人才,將世界帶到台灣。 面對台灣產業和人民的
Thumbnail
近年來,生成式AI(人工智能)的需求不斷增加,這也促使了台積電抓住這一機遇,發起反轉攻勢。具體來說,台積電正在針對生成式AI的需求,並通過反轉攻勢來擴大其市場份額。這一舉措的原因和過程可能與以下因素有關: 首先,生成式AI的需求正在不斷增加。生成式AI是一種基於深度學習的人工智能技術,可以
Thumbnail
近年來,生成式AI(人工智能)的需求不斷增加,這也促使了台積電抓住這一機遇,發起反轉攻勢。具體來說,台積電正在針對生成式AI的需求,並通過反轉攻勢來擴大其市場份額。這一舉措的原因和過程可能與以下因素有關: 首先,生成式AI的需求正在不斷增加。生成式AI是一種基於深度學習的人工智能技術,可以
Thumbnail
英文學習貴在能學以致用。自學好(中)高階時事(商用)英文過程中,關鍵在於是否有足夠詞彙量?及是否能自行理解字裡行間複雜的文法結構?每日例行閱讀一篇國際知名新聞摘要,是自我提升英文很有效的方法,雖然花時間,但工整的複習筆記,就是建構自己知識庫很重要的學習資源。
Thumbnail
英文學習貴在能學以致用。自學好(中)高階時事(商用)英文過程中,關鍵在於是否有足夠詞彙量?及是否能自行理解字裡行間複雜的文法結構?每日例行閱讀一篇國際知名新聞摘要,是自我提升英文很有效的方法,雖然花時間,但工整的複習筆記,就是建構自己知識庫很重要的學習資源。
Thumbnail
Named Entity Recognition(NER)是一種自然語言處理技術,它的目的是識別文本中的具有特定意義的實體(也稱為命名實體)。這些命名實體可以是人名、地名、組織名、日期、時間、數量等等。 這項技術可以幫助機器更好地理解文本,提高自然語言處理的精度和效率,也可以用於許多應用場景,例如搜
Thumbnail
Named Entity Recognition(NER)是一種自然語言處理技術,它的目的是識別文本中的具有特定意義的實體(也稱為命名實體)。這些命名實體可以是人名、地名、組織名、日期、時間、數量等等。 這項技術可以幫助機器更好地理解文本,提高自然語言處理的精度和效率,也可以用於許多應用場景,例如搜
Thumbnail
AI技術的發展為人們的生產和生活帶來了巨大的變革,從智能家居、智能醫療、自動駕駛等,現在AI已經漸漸地出現在你的生活中,如果未來AI會更盛行的,我們可以從中找到甚麼投資機會 那以下就要稍微介紹一下AI,但因為菜鳥也是自己去爬文,去找資料,不是相關的專業人士,所以僅供參考就好了,那AI也有蠻多法規跟倫
Thumbnail
AI技術的發展為人們的生產和生活帶來了巨大的變革,從智能家居、智能醫療、自動駕駛等,現在AI已經漸漸地出現在你的生活中,如果未來AI會更盛行的,我們可以從中找到甚麼投資機會 那以下就要稍微介紹一下AI,但因為菜鳥也是自己去爬文,去找資料,不是相關的專業人士,所以僅供參考就好了,那AI也有蠻多法規跟倫
Thumbnail
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
Thumbnail
只參加有興趣的半導體相關演講,第一手摘要: 地點:台北華山文創園區 Legacy 10:00-10:20 生成式 AI - 驅動創新的全新動能 NVIDIA資深協理 康勝閔 10:40-11:00 AI 開啟 IC半導體黃金時代 聯發科技股份有限公司前瞻技術平台資深處長 梁伯嵩博士
Thumbnail
每周一篇文章的讀書會心得報告摘要與筆記,本次分享文章為:AI 並非萬能!越洋採訪史隆獎得主、UCLA 台籍教授:2 缺陷要靠人類修補。 1.人工智慧技術; 2.資料寬廣度不足時,就會複製人類偏見; 3.即便條件相同,也無法每次都做出正確判斷; 4.餵指令給 AI 要多元化,嘗試換句話說、刻意混淆。
Thumbnail
每周一篇文章的讀書會心得報告摘要與筆記,本次分享文章為:AI 並非萬能!越洋採訪史隆獎得主、UCLA 台籍教授:2 缺陷要靠人類修補。 1.人工智慧技術; 2.資料寬廣度不足時,就會複製人類偏見; 3.即便條件相同,也無法每次都做出正確判斷; 4.餵指令給 AI 要多元化,嘗試換句話說、刻意混淆。
Thumbnail
敦陽科受邀參加凱基證券109年5月15日15點線上法說會議,向投資人說明109年第一季營運成果,本篇彙整法說會Q&A, 提供投資朋友參考。
Thumbnail
敦陽科受邀參加凱基證券109年5月15日15點線上法說會議,向投資人說明109年第一季營運成果,本篇彙整法說會Q&A, 提供投資朋友參考。
Thumbnail
稱為NeurIPS(神經資訊處理系統會議)的全球人工智慧領域盛會剛剛結束,出席者人數創下歷史新高,即使採取抽票制也難以容納。9,000張門票在12分鐘內售完,顯示了世界各地對AI興趣的爆炸式增長。
Thumbnail
稱為NeurIPS(神經資訊處理系統會議)的全球人工智慧領域盛會剛剛結束,出席者人數創下歷史新高,即使採取抽票制也難以容納。9,000張門票在12分鐘內售完,顯示了世界各地對AI興趣的爆炸式增長。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News