NLP 系列-3:文字向量化 - word2vec

更新於 發佈於 閱讀時間約 4 分鐘

在自然語言處理領域中,佔據核心地位的就是文字向量化的技術。先前有介紹過了經典好用的 tfidf,這次想要介紹融入了神經網路模型為基礎的word2vec(Google 2013年論文),事不宜遲,就讓我們往下看看吧

https://arxiv.org/pdf/1301.3781.pdf

https://arxiv.org/pdf/1301.3781.pdf

目錄

  • 什麼是 word2vec?
  • word2vec 背後的直覺?
  • 如何去建立 word2vec?該怎麼用?
  • 總結


一、什麼是 word2vec?

上次介紹tfidf 時,發現tfidf 雖然簡單、好用,但也有幾個明顯缺陷,如:詞與詞之間相似性 維度爆炸、稀疏 這也是 word2vec 出現的主要原因!比如「開心」「雀躍」應該是非常類似的詞,但用 tfidf / one-hot 時,相似性將是0;而 word2vec 是將一個個詞,如「開心」「雀躍」都將其嵌入到 k 維的稠密向量,後續的相似性計算則可以改善過往為0的缺陷。['雀躍'] # [1, 0] 簡單以 2 維來示意


['開心'] # [0, 1]
# cosine similarity = 0

二、word2vec 背後的直覺?


word2vec當時想要改善的是相似性的部分,所以直覺想到的是將原先相當稀疏的向量壓縮到較小維度的稠密向量。而要達到這個概念,作者想到的是將每一個「詞」對應到一個k維的向量,再經過模型訓練,更新 k 維的對應參數,最後可以將其 k 維向量去計算相似性。而這其中背後的直覺在於:「詞」與「周圍的詞」之間是有關連的。
透過大量的文字資料去建立一個語言模型,透過預測出現詞的任務,去優化模型參數,使得「詞向量」可以表達詞與詞之間的關係。


三、如何去建立 word2vec?該怎麼用?


根據論文主要有兩種實踐方式:Skip-gram model:透過中間詞預測周圍詞。
CBOW:透過周圍詞預測中間詞。
對於實現 code 感興趣的可以到 Google 官方教程 參考!而該怎麼使用呢?假設我們已經訓練好了一個 word2vec 模型,而我們以剛剛「開心」「雀躍」為例。「開心」 -> word2vec -> k維向量「雀躍」 -> word2vec -> k維向量以文本分類(正面/負面)來說,將其當作特徵(k維)丟入下游的模型比如隨機森林,去辨識。

# pseudo code
word2vec = Word2vec(...)
vector = word2vec.predict(['開心', '雀躍', '難過'])
rf = RandomForestClassifier(...)
rf.fit(vector, [1, 1, 0])

四、總結


透過 word2vec 模型,可以得到「詞向量」,而「詞向量」聚合可以得到更高階層的「句向量」就可以搭配下游的 NLP 任務,如輿情分析、語意搜尋等任務使用,可以達到不錯的效果(詳見論文)可以發現,上游的詞向量模型與下游的 NLP 任務是獨立的,下游任務並不會改變上游訓練好的詞向量,在某些任務上可能會造成效果比沒有那麼好,這種向量固定的方式也稱為 feature-based。另外也發現,其背後的直覺、假設關係,詞與詞之間的關係是在一定的條件下,而真實的情況不一定完全符合,且沒有考慮上下文不同時,同一個詞可能代表不同意思。下一篇再介紹 BERT,如何去改良了這些缺點,也造成了一股風潮。


如果覺得文章有幫助,希望可以給我一些掌聲👏讓我更有動力繼續分享類似的主題,也歡迎提供想了解的主題唷!


參考

Google 2013 word2vec paper
Cosine similarity






留言
avatar-img
留言分享你的想法!
avatar-img
資料週週New的沙龍
1會員
3內容數
喜歡資料科學的朋友應該都有聽過 NLP(自然語言處理)的大名,日常生活的Gmail、Google Search、Spotify等等應用都有使用這個技術。希望透過這個系列與大家稍微分享一下我個人對於 NLP 的看法,讓我們一起探索這個有趣、迷人的領域吧!
你可能也想看
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
大家好,我是一名眼科醫師,也是一位孩子的媽 身為眼科醫師的我,我知道視力發展對孩子來說有多關鍵。 每到開學季時,診間便充斥著許多憂心忡忡的家屬。近年來看診中,兒童提早近視、眼睛疲勞的案例明顯增加,除了3C使用過度,最常被忽略的,就是照明品質。 然而作為一位媽媽,孩子能在安全、舒適的環境
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
我的「媽」呀! 母親節即將到來,vocus 邀請你寫下屬於你的「媽」故事——不管是紀錄爆笑的日常,或是一直想對她表達的感謝,又或者,是你這輩子最想聽她說出的一句話。 也歡迎你曬出合照,分享照片背後的點點滴滴 ♥️ 透過創作,將這份情感表達出來吧!🥹
Thumbnail
前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」, 我們都知道「詞」是NLP世界中的最小單元, 關於詞的知識歡迎參考: 簡單來說,主要的目的是將文本轉換為模型可以處理的數據, But…, 他主要的任務並不是像jieba…等斷詞器一樣, 而是很單純的扮演文字與模型的橋
Thumbnail
前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」, 我們都知道「詞」是NLP世界中的最小單元, 關於詞的知識歡迎參考: 簡單來說,主要的目的是將文本轉換為模型可以處理的數據, But…, 他主要的任務並不是像jieba…等斷詞器一樣, 而是很單純的扮演文字與模型的橋
Thumbnail
我們有想過嗎? 一句簡單的話語, 竟然隱含著豐富的句法結構與規則, 而句法就是依著這樣的規則組合而成, 形成一個完整的句子, 隨著資料量越大, 透過規則與關聯性, 機器就能夠根據我們的話語進行拆解, 並試圖理解我們的意圖進行更貼心的服務, 隨著Chatgpt的興起, 我們也見證到AI的新里程碑, 資
Thumbnail
我們有想過嗎? 一句簡單的話語, 竟然隱含著豐富的句法結構與規則, 而句法就是依著這樣的規則組合而成, 形成一個完整的句子, 隨著資料量越大, 透過規則與關聯性, 機器就能夠根據我們的話語進行拆解, 並試圖理解我們的意圖進行更貼心的服務, 隨著Chatgpt的興起, 我們也見證到AI的新里程碑, 資
Thumbnail
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
Thumbnail
所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。 表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之
Thumbnail
詞跟詞之間的距離有多近呢? 如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起,某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計,而這些詞在這批資料集之中所佔的位置依照距離都能夠
Thumbnail
詞跟詞之間的距離有多近呢? 如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起,某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計,而這些詞在這批資料集之中所佔的位置依照距離都能夠
Thumbnail
常常我們在進行NLP討論時,不管哪一種NLP任務都會偶爾聽到BOW這個詞,原來全名就是「Bag-of-words」由名稱就可以知道這是在處理NLP任務之前的基礎工事,將一整篇文章切碎成一段語句,甚至是最小單位的「詞」,而這些詞又如何表述關係或者進一步的使用,試圖讓機器可以理解我們人類的詞語,就是基於
Thumbnail
常常我們在進行NLP討論時,不管哪一種NLP任務都會偶爾聽到BOW這個詞,原來全名就是「Bag-of-words」由名稱就可以知道這是在處理NLP任務之前的基礎工事,將一整篇文章切碎成一段語句,甚至是最小單位的「詞」,而這些詞又如何表述關係或者進一步的使用,試圖讓機器可以理解我們人類的詞語,就是基於
Thumbnail
在自然語言處理領域中,佔據核心地位的就是文字向量化的技術。先前有介紹過了經典好用的 tfidf,這次想要介紹融入了神經網路模型為基礎的word2vec(Google 2013年論文),事不宜遲,就讓我們往下看看吧
Thumbnail
在自然語言處理領域中,佔據核心地位的就是文字向量化的技術。先前有介紹過了經典好用的 tfidf,這次想要介紹融入了神經網路模型為基礎的word2vec(Google 2013年論文),事不宜遲,就讓我們往下看看吧
Thumbnail
註釋: 靈感來自生活經驗,那是沃土,來自思考,那是栽種,靈感也需要時間,因此,往往出現在不斷思考之後的靈光一閃。 創作說明: 靈感和果實很像,在生活中一點一滴累積,每一步都很重要,時機成熟,才能水到渠成。
Thumbnail
註釋: 靈感來自生活經驗,那是沃土,來自思考,那是栽種,靈感也需要時間,因此,往往出現在不斷思考之後的靈光一閃。 創作說明: 靈感和果實很像,在生活中一點一滴累積,每一步都很重要,時機成熟,才能水到渠成。
Thumbnail
徵文動機 參加難度:☆☆☆ (實在沒理由不參加) 活動辦法 『靈感』、『鹹酥雞』、『平行宇宙』、『拓荒者』、『酒精』 活動時間內,從以上五個字詞,挑選你喜愛的,完成以下: 註釋 -- 10~100 個中文字(含標點符號)。 既然沒有理由不參加 那就參加囉 靈感 1.註釋: 靈魂的感動 感知的觸動
Thumbnail
徵文動機 參加難度:☆☆☆ (實在沒理由不參加) 活動辦法 『靈感』、『鹹酥雞』、『平行宇宙』、『拓荒者』、『酒精』 活動時間內,從以上五個字詞,挑選你喜愛的,完成以下: 註釋 -- 10~100 個中文字(含標點符號)。 既然沒有理由不參加 那就參加囉 靈感 1.註釋: 靈魂的感動 感知的觸動
Thumbnail
一個好的自然語言模型,若出現了語言模型的 vocabulary set 未曾收錄的單字,語言模型就會產生 Out-of-Vocabulary (OOV)。 本文介紹 subword algorithms 介於 word-level 和 character-level 解決 OOV 的方法。
Thumbnail
一個好的自然語言模型,若出現了語言模型的 vocabulary set 未曾收錄的單字,語言模型就會產生 Out-of-Vocabulary (OOV)。 本文介紹 subword algorithms 介於 word-level 和 character-level 解決 OOV 的方法。
Thumbnail
在此篇文章終將會簡述機械學習的發展,簡介深度學習以 Sequence to Sequence 為架構,並在多場機械翻譯的學術年會,獲得成績斐然的結果。在本文中,會粗略介紹 Sequence to Sequence 架構並以 google 在 2017 對Seq2Seq 所進行的大規模參數。
Thumbnail
在此篇文章終將會簡述機械學習的發展,簡介深度學習以 Sequence to Sequence 為架構,並在多場機械翻譯的學術年會,獲得成績斐然的結果。在本文中,會粗略介紹 Sequence to Sequence 架構並以 google 在 2017 對Seq2Seq 所進行的大規模參數。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News