【AI幫幫忙】機器如何識別我們的特徵?關鍵的Named Entity Recognition(NER)技術

閱讀時間約 5 分鐘
Named Entity Recognition(NER)是一種自然語言處理技術,它的目的是識別文本中的具有特定意義的實體(也稱為命名實體)。這些命名實體可以是人名、地名、組織名、日期、時間、數量等等。
這項技術可以幫助機器更好地理解文本,提高自然語言處理的精度和效率,也可以用於許多應用場景,例如搜索引擎、機器翻譯、自動摘要、問答系統等。

舉例來說

● 台灣疫情近日爆發,中央流行疫情指揮中心每天都會公布最新的確診數字。在這個句子中,「台灣"」和 「中央流行疫情指揮中心"」都是命名實體,「確診數字」 則是一個數量實體。
● 台積電是一家全球知名的半導體公司,總部位於新竹科學園區。在這個句子中,「台積電」 和 「新竹科學園區」 都是命名實體,而「半導體公司」則為組織實體。
過NER的技術就能夠很明確的從一段語句中得出一些重要的關鍵資訊, 而透過這些重要的關鍵資訊, 我們可以猜測意圖、情緒、甚至做出對應的處理, 就如同我們人與人交流的過程中, 從對方的對話中嘗試理解對方的意圖一樣, 而NER就是很簡單的將這些實體辨識出來, 至於應該做什麼處理就是另一篇故事囉。

幾個重要的步驟

數據收集

首先,你需要從可靠來源收集大量的標註好的文本數據。這些數據需要包含實體類別的標記信息,例如人名、地名、組織名等等。可以使用現成的標註好的語料庫,或者自己標註數據。

數據預處理

在訓練之前,你需要對數據進行預處理,例如斷詞、分句、標註等等。可以使用現成的斷詞工具、分句工具和標註工具來實現。

特徵設計

接下來,你需要設計一組特徵來表示每個詞語。常用的特徵包括詞向量、詞性標記、上下文特徵、字形特徵等等。你可以根據實際情況選擇不同的特徵,也可以組合多種特徵。

模型設計

在特徵設計完成後,你需要選擇一個合適的模型來進行訓練。常見的模型包括最大熵模型、隱馬爾可夫模型、條件隨機場模型和深度學習模型等。你可以根據實際情況選擇不同的模型,也可以使用集成學習方法組合多個模型。

模型訓練

在模型設計完成後,你需要使用訓練數據來訓練模型。訓練過程中需要調節模型的參數,以達到最好的效果。可以使用交叉驗證等方法來選擇最優的參數。

模型評估

在模型訓練完成後,你需要使用測試數據來評估模型的性能。常見的評估指標包括準確率、召回率、F1 值等等。

工具庫

以下是幾個著名的NER工具庫:
SpaCy: SpaCy是一個流行的Python NLP庫,其中包括一個高效的NER模型,支持多種語言,包括英語、德語、西班牙語、法語等。SpaCy的NER模型可以快速且準確地識別文本中的實體,同時還支持自定義實體類別和擴充詞庫等功能。
Stanford NLP: Stanford NLP是另一個著名的NLP工具庫,其中包括一個強大的NER模型,支持多種語言,包括英語、漢語等。Stanford NLP的NER模型基於深度學習技術,能夠進行高精度的實體識別,同時還支持自定義實體類別和擴充詞庫等功能。
AllenNLP:AllenNLP是一個基於PyTorch的NLP庫,其中包括一個高效的NER模型,支持多種語言,包括英語、德語、西班牙語等。AllenNLP的NER模型基於深度學習技術,能夠進行高精度的實體識別,同時還支持自定義實體類別和擴充詞庫等功能。

常見的幾種方法

目前常見的方法包括規則法和機器學習法,後來發展深度學習技術甚至到近期的遷移式學習。
規則法是通過設計一系列規則來識別文本中的實體,這些規則可以基於語法、語義等方面進行設計,也可以利用正則表達式等工具進行匹配。規則法的優點是易於理解和調整,適用於處理特定領域的數據,但是需要手動編寫規則,對數據的泛化能力較差。
機器學習法則是基於標註好的數據集進行訓練,建立統計模型對實體進行識別和標記。機器學習法的優點是可以自動學習規律,具有較好的泛化能力,但需要標註大量的數據集,訓練和調優較為耗時。
深度學習技術在NER領域也有了廣泛的應用,如基於循環神經網絡(RNN)的模型和基於Transformer的模型,這些模型在大規模數據下具有很好的效果,但需要較大的計算資源和訓練時間。

結語

有了Named Entity Recognition之後讓機器更讀得懂我們的特徵,而藉由這些特徵搭配龐大的數據量,可以快速的統計出可能的意圖,藉由這些意圖進行後續的分析甚至聰明的推薦,進而發展更多的AI以更快更準確的角色輔助我們完成繁瑣工作,至於AI會有思考意識嗎? 至少目前尚未有大幅度的感受,基本上還是在統計過去數據推估未來概率上發展,確實ChatGPT的出現讓我們眼睛為之一亮,也可能是AI發展史上的重大里程碑,唯一不變的是我們人類也要不斷的精進,不要讓繁瑣的工作成為我們唯一的技能,導致被淘汰的命運。
喜歡撰寫文章的你,不妨來了解一下:
歡迎加入一起練習寫作,賺取知識,累積財富!
即將進入廣告,捲動後可繼續閱讀
為什麼會看到廣告
108會員
250Content count
哈囉,我是阿Han,是一位 👩‍💻 軟體研發工程師,喜歡閱讀、學習、撰寫文章及教學,擅長以圖代文,化繁為簡,除了幫助自己釐清思路之外,也希望藉由圖解的方式幫助大家共同學習,甚至手把手帶您設計出高品質的軟體產品。
留言0
查看全部
發表第一個留言支持創作者!
阿Han的沙龍 的其他內容
上一篇「【Google Colab Python系列】 初探Whisper: 來對一段Youtube影片進行辨識吧!」我們介紹了Whisper的基本用法及功能,這次我們除了語音辨識之外,還要下載辨識後的字幕檔,我想這對於我們常常看到沒有字幕的影片,若想要進行辨識與翻譯時非常有幫助。 這次的篇章主要做
這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式,並簡單的對Youtube影片進行線上翻譯的工作,主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜,就讓我們一起來玩玩看吧! 在這之前我們還是說一下Whisper它是什麼樣的一個工具,能夠做什麼? Whisper 是OpenAI
上一篇「【Google Colab Python系列】 初探Whisper: 來對一段Youtube影片進行辨識吧!」我們介紹了Whisper的基本用法及功能,這次我們除了語音辨識之外,還要下載辨識後的字幕檔,我想這對於我們常常看到沒有字幕的影片,若想要進行辨識與翻譯時非常有幫助。 這次的篇章主要做
這個篇章主要是讓我們能夠熟悉Whisper的安裝與使用方式,並簡單的對Youtube影片進行線上翻譯的工作,主軸在於了解一下整個Whisper使用方式到底是簡單還是複雜,就讓我們一起來玩玩看吧! 在這之前我們還是說一下Whisper它是什麼樣的一個工具,能夠做什麼? Whisper 是OpenAI
你可能也想看
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
一直很想出一首單曲,覺得不是自己做的或自己唱的,感覺都差那麼點,但沒辦法,我只是愛唱歌,不會作曲、編曲,要出一首完全靠自己的單曲真的太難了。最近嘗試自己寫詞,用Suno AI協助編曲,效果真的很棒,雖然還是想自己唱,不過需要另外製作伴唱重新錄製,而且自己唱的還沒有AI好聽,或許之後可以用AI將聲音換
Thumbnail
各位好,我是拯股專家股晶,歡迎收看股晶講股,今天要跟大家介紹的是6414樺漢,首先是免責聲明喔,以下的內容都是我個人的研究綜整,主要包含技術面、籌碼面、基本面、消息面這幾個面向,那請大家注意我的節目只是提供大家選股上的參考,所以各位如果有進場,請自行斟酌停利、停損點喔。 好的,進入主題
Thumbnail
又到了燈會的時節,看了新竹和板橋的作品,想說是否也能請AI幫忙作提案呢?使用的AI工具是免費的Bing, 作為輔助工具,幫助設計師發想靈感,似乎是很不錯的選擇,大家也可以一起來玩玩看喲!
Thumbnail
因為坐姿不正、姿勢不良 我長時間有骨盆前傾的問題 一旦長時間久站就容易腰痛 前幾天收到來自脊米 穿就正 AI 3D智能襪 3款襪子的體驗 我一共拿到高船型襪、Sports運動襪、露趾襪套各1雙 測試後真的有幫足弓支撐的感覺~
以巴衝突即將邁入第2個月,而以色列軍方直到現在都能源源不絕找出下一個攻擊目標,關鍵可能就是靠AI。獨立媒體《+972 Magazine》與《Local Call》報導指出,以色列用 AI 人工智慧「福音」設定攻擊目標,為了搶快,寧可傷及無辜,也不要錯殺,放寬「附帶損害」容許範圍,也沒有專人做更仔細的
Thumbnail
很多人寫英文履歷會遇到不知道怎麼用英文寫自己職務或產業的工作內容,我來分享怎麼用Chat GPT 這個AI軟體幫你找針對你職務內容的英文描述喔~
Thumbnail
「TED」上同步換臉、出道當換臉歌手,我們的眼睛將越來越不可信。 就在四月份,TED主席「克里斯.安德森」與AI工作者「Tom」在一場TED論壇上對談,這對Chris來說是一個相當詭異的經驗,因為Tom直接在現場將自己的臉跟聲音都換成了Chris。 深偽技術(deepfake)我們應該不會太陌生,不
Thumbnail
有接觸AI畫圖的朋友,想必對Midjourney這款軟體並不陌生。 對於Midjourney的研究,月英這邊也快研究兩個月的時間了,覺得AI雖然功能十分強大,但是如何駕馭AI,到目前仍然是個挑戰。 AI繪圖有再現性的挑戰 尤其在商業市場,一個數位角色,最重要的就是它的樣貌需要再現性,就以黃月英這個角
Thumbnail
1.加權指數與櫃買指數 週五的加權指數在非農就業數據開出來後,雖稍微低於預期,但指數仍向上噴出,在美股開盤後於21500形成一個爆量假突破後急轉直下,就一路收至最低。 台股方面走勢需觀察週一在斷頭潮出現後,週二或週三開始有無買單進場支撐,在沒有明確的反轉訊號形成前,小夥伴盡量不要貿然抄底,或是追空
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
一直很想出一首單曲,覺得不是自己做的或自己唱的,感覺都差那麼點,但沒辦法,我只是愛唱歌,不會作曲、編曲,要出一首完全靠自己的單曲真的太難了。最近嘗試自己寫詞,用Suno AI協助編曲,效果真的很棒,雖然還是想自己唱,不過需要另外製作伴唱重新錄製,而且自己唱的還沒有AI好聽,或許之後可以用AI將聲音換
Thumbnail
各位好,我是拯股專家股晶,歡迎收看股晶講股,今天要跟大家介紹的是6414樺漢,首先是免責聲明喔,以下的內容都是我個人的研究綜整,主要包含技術面、籌碼面、基本面、消息面這幾個面向,那請大家注意我的節目只是提供大家選股上的參考,所以各位如果有進場,請自行斟酌停利、停損點喔。 好的,進入主題
Thumbnail
又到了燈會的時節,看了新竹和板橋的作品,想說是否也能請AI幫忙作提案呢?使用的AI工具是免費的Bing, 作為輔助工具,幫助設計師發想靈感,似乎是很不錯的選擇,大家也可以一起來玩玩看喲!
Thumbnail
因為坐姿不正、姿勢不良 我長時間有骨盆前傾的問題 一旦長時間久站就容易腰痛 前幾天收到來自脊米 穿就正 AI 3D智能襪 3款襪子的體驗 我一共拿到高船型襪、Sports運動襪、露趾襪套各1雙 測試後真的有幫足弓支撐的感覺~
以巴衝突即將邁入第2個月,而以色列軍方直到現在都能源源不絕找出下一個攻擊目標,關鍵可能就是靠AI。獨立媒體《+972 Magazine》與《Local Call》報導指出,以色列用 AI 人工智慧「福音」設定攻擊目標,為了搶快,寧可傷及無辜,也不要錯殺,放寬「附帶損害」容許範圍,也沒有專人做更仔細的
Thumbnail
很多人寫英文履歷會遇到不知道怎麼用英文寫自己職務或產業的工作內容,我來分享怎麼用Chat GPT 這個AI軟體幫你找針對你職務內容的英文描述喔~
Thumbnail
「TED」上同步換臉、出道當換臉歌手,我們的眼睛將越來越不可信。 就在四月份,TED主席「克里斯.安德森」與AI工作者「Tom」在一場TED論壇上對談,這對Chris來說是一個相當詭異的經驗,因為Tom直接在現場將自己的臉跟聲音都換成了Chris。 深偽技術(deepfake)我們應該不會太陌生,不
Thumbnail
有接觸AI畫圖的朋友,想必對Midjourney這款軟體並不陌生。 對於Midjourney的研究,月英這邊也快研究兩個月的時間了,覺得AI雖然功能十分強大,但是如何駕馭AI,到目前仍然是個挑戰。 AI繪圖有再現性的挑戰 尤其在商業市場,一個數位角色,最重要的就是它的樣貌需要再現性,就以黃月英這個角