NLP 系列-3：文字向量化 - word2vec

更新於 2025/01/05發佈於 2023/01/06閱讀時間約 4 分鐘

在自然語言處理領域中，佔據核心地位的就是文字向量化的技術。先前有介紹過了經典好用的 tfidf，這次想要介紹融入了神經網路模型為基礎的word2vec(Google 2013年論文)，事不宜遲，就讓我們往下看看吧

一、什麼是 word2vec？

上次介紹tfidf 時，發現tfidf 雖然簡單、好用，但也有幾個明顯缺陷，如：詞與詞之間相似性維度爆炸、稀疏這也是 word2vec 出現的主要原因！比如「開心」「雀躍」應該是非常類似的詞，但用 tfidf / one-hot 時，相似性將是0；而 word2vec 是將一個個詞，如「開心」「雀躍」都將其嵌入到 k 維的稠密向量，後續的相似性計算則可以改善過往為0的缺陷。['雀躍'] # [1, 0] 簡單以 2 維來示意


['開心'] # [0, 1]
# cosine similarity = 0

二、word2vec 背後的直覺？

word2vec當時想要改善的是相似性的部分，所以直覺想到的是將原先相當稀疏的向量壓縮到較小維度的稠密向量。而要達到這個概念，作者想到的是將每一個「詞」對應到一個k維的向量，再經過模型訓練，更新 k 維的對應參數，最後可以將其 k 維向量去計算相似性。而這其中背後的直覺在於：「詞」與「周圍的詞」之間是有關連的。
透過大量的文字資料去建立一個語言模型，透過預測出現詞的任務，去優化模型參數，使得「詞向量」可以表達詞與詞之間的關係。

三、如何去建立 word2vec？該怎麼用？

根據論文主要有兩種實踐方式：Skip-gram model：透過中間詞預測周圍詞。
CBOW：透過周圍詞預測中間詞。
對於實現 code 感興趣的可以到 Google 官方教程參考！而該怎麼使用呢？假設我們已經訓練好了一個 word2vec 模型，而我們以剛剛「開心」「雀躍」為例。「開心」 -> word2vec -> k維向量「雀躍」 -> word2vec -> k維向量以文本分類(正面/負面)來說，將其當作特徵(k維)丟入下游的模型比如隨機森林，去辨識。

# pseudo code
word2vec = Word2vec(...)
vector = word2vec.predict(['開心', '雀躍', '難過'])
rf = RandomForestClassifier(...)
rf.fit(vector, [1, 1, 0])

四、總結

透過 word2vec 模型，可以得到「詞向量」，而「詞向量」聚合可以得到更高階層的「句向量」就可以搭配下游的 NLP 任務，如輿情分析、語意搜尋等任務使用，可以達到不錯的效果（詳見論文）可以發現，上游的詞向量模型與下游的 NLP 任務是獨立的，下游任務並不會改變上游訓練好的詞向量，在某些任務上可能會造成效果比沒有那麼好，這種向量固定的方式也稱為 feature-based。另外也發現，其背後的直覺、假設關係，詞與詞之間的關係是在一定的條件下，而真實的情況不一定完全符合，且沒有考慮上下文不同時，同一個詞可能代表不同意思。下一篇再介紹 BERT，如何去改良了這些缺點，也造成了一股風潮。

如果覺得文章有幫助，希望可以給我一些掌聲👏讓我更有動力繼續分享類似的主題，也歡迎提供想了解的主題唷！

參考

Google 2013 word2vec paper
Cosine similarity

資料週週New的沙龍NLP（自然語言處理）系列

留言

留言分享你的想法！

資料週週New的沙龍

1會員

3內容數

喜歡資料科學的朋友應該都有聽過 NLP（自然語言處理）的大名，日常生活的Gmail、Google Search、Spotify等等應用都有使用這個技術。希望透過這個系列與大家稍微分享一下我個人對於 NLP 的看法，讓我們一起探索這個有趣、迷人的領域吧！

你可能也想看

阿Han的沙龍

【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer

前面我們介紹了「【Hugging Face】Ep.1 平凡人也能玩的起的AI平台」，我們都知道「詞」是NLP世界中的最小單元，關於詞的知識歡迎參考: 簡單來說，主要的目的是將文本轉換為模型可以處理的數據， But…，他主要的任務並不是像jieba…等斷詞器一樣，而是很單純的扮演文字與模型的橋

#AI#Huggingface

2023/07/10

阿Han的沙龍

【Hugging Face】Ep.4 文字與模型的轉換器Tokenizer

#AI#Huggingface

2023/07/10

阿Han的沙龍

【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

我們有想過嗎？一句簡單的話語, 竟然隱含著豐富的句法結構與規則, 而句法就是依著這樣的規則組合而成, 形成一個完整的句子, 隨著資料量越大, 透過規則與關聯性, 機器就能夠根據我們的話語進行拆解, 並試圖理解我們的意圖進行更貼心的服務, 隨著Chatgpt的興起, 我們也見證到AI的新里程碑, 資

#NLP#AI

2023/07/08

阿Han的沙龍

【自然語言處理 - 概念篇】拆解語句組成的規則, 何謂依存句法分析(Dependency Parsing)?

#NLP#AI

2023/07/08

阿Han的沙龍

【自然語言處理 — 概念篇】探索TF-IDF, 關於詞的統計與索引隱含著什麼奧秘呢？

所謂TF-IDF是由兩個名詞所組成的, 分別是「詞頻(Term Frequency,TF)」和「逆文檔頻率(Inverse Document Frequency,IDF)。表示詞在文檔中出現的頻率, 就統計學而言, 只要這個詞在文本中出現越多次代表越值得關注, 因此它會具有一個重要的統計評估指標之

#AI#NLP

2023/06/21

阿Han的沙龍

【自然語言處理 — 概念篇】探索TF-IDF, 關於詞的統計與索引隱含著什麼奧秘呢？

#AI#NLP

2023/06/21

阿Han的沙龍

【自然語言處理 — 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧

詞跟詞之間的距離有多近呢？如果一個詞在相對的空間內都佔有一席之地的話, 試想, 每個詞都是一個獨立的個體, 就如同我們人類一般, 相同興趣的、相同頻率的就容易被歸納在一起，某些詞可能是相近的意思, 因此我們只需要給每個詞標上一個向量值, 並進行統計，而這些詞在這批資料集之中所佔的位置依照距離都能夠

#NLP#AI#word2vec

2023/06/05

阿Han的沙龍

【自然語言處理 — 概念篇】來認識一下詞向量(Word Embedding or Word Vector)吧

#NLP#AI#word2vec

2023/06/05

阿Han的沙龍

【自然語言處理 — 概念篇】最基礎的Bag-of-Words模型是什麼呢？

常常我們在進行NLP討論時，不管哪一種NLP任務都會偶爾聽到BOW這個詞，原來全名就是「Bag-of-words」由名稱就可以知道這是在處理NLP任務之前的基礎工事，將一整篇文章切碎成一段語句，甚至是最小單位的「詞」，而這些詞又如何表述關係或者進一步的使用，試圖讓機器可以理解我們人類的詞語，就是基於

#AI#python#NLP

2023/05/26

阿Han的沙龍

【自然語言處理 — 概念篇】最基礎的Bag-of-Words模型是什麼呢？

#AI#python#NLP

2023/05/26