NLP 系列-3:文字向量化 - word2vec

更新於 2023/01/06閱讀時間約 3 分鐘
在自然語言處理領域中,佔據核心地位的就是文字向量化的技術。先前有介紹過了經典好用的 tfidf,這次想要介紹融入了神經網路模型為基礎的word2vec(Google 2013年論文),事不宜遲,就讓我們往下看看吧
https://arxiv.org/pdf/1301.3781.pdf

目錄

  • 什麼是 word2vec?
  • word2vec 背後的直覺?
  • 如何去建立 word2vec?該怎麼用?
  • 總結


一、什麼是 word2vec?

上次介紹tfidf 時,發現tfidf 雖然簡單、好用,但也有幾個明顯缺陷,如:詞與詞之間相似性 維度爆炸、稀疏 這也是 word2vec 出現的主要原因!比如「開心」「雀躍」應該是非常類似的詞,但用 tfidf / one-hot 時,相似性將是0;而 word2vec 是將一個個詞,如「開心」「雀躍」都將其嵌入到 k 維的稠密向量,後續的相似性計算則可以改善過往為0的缺陷。['雀躍'] # [1, 0] 簡單以 2 維來示意

['開心'] # [0, 1]
# cosine similarity = 0

二、word2vec 背後的直覺?


word2vec當時想要改善的是相似性的部分,所以直覺想到的是將原先相當稀疏的向量壓縮到較小維度的稠密向量。而要達到這個概念,作者想到的是將每一個「詞」對應到一個k維的向量,再經過模型訓練,更新 k 維的對應參數,最後可以將其 k 維向量去計算相似性。而這其中背後的直覺在於:「詞」與「周圍的詞」之間是有關連的。
透過大量的文字資料去建立一個語言模型,透過預測出現詞的任務,去優化模型參數,使得「詞向量」可以表達詞與詞之間的關係。

三、如何去建立 word2vec?該怎麼用?


根據論文主要有兩種實踐方式:Skip-gram model:透過中間詞預測周圍詞。
CBOW:透過周圍詞預測中間詞。
對於實現 code 感興趣的可以到 Google 官方教程 參考!而該怎麼使用呢?假設我們已經訓練好了一個 word2vec 模型,而我們以剛剛「開心」「雀躍」為例。「開心」 -> word2vec -> k維向量「雀躍」 -> word2vec -> k維向量以文本分類(正面/負面)來說,將其當作特徵(k維)丟入下游的模型比如隨機森林,去辨識。
# pseudo code
word2vec = Word2vec(...)
vector = word2vec.predict(['開心', '雀躍', '難過'])
rf = RandomForestClassifier(...)
rf.fit(vector, [1, 1, 0])

四、總結


透過 word2vec 模型,可以得到「詞向量」,而「詞向量」聚合可以得到更高階層的「句向量」就可以搭配下游的 NLP 任務,如輿情分析、語意搜尋等任務使用,可以達到不錯的效果(詳見論文)可以發現,上游的詞向量模型與下游的 NLP 任務是獨立的,下游任務並不會改變上游訓練好的詞向量,在某些任務上可能會造成效果比沒有那麼好,這種向量固定的方式也稱為 feature-based。另外也發現,其背後的直覺、假設關係,詞與詞之間的關係是在一定的條件下,而真實的情況不一定完全符合,且沒有考慮上下文不同時,同一個詞可能代表不同意思。下一篇再介紹 BERT,如何去改良了這些缺點,也造成了一股風潮。
如果覺得文章有幫助,希望可以給我一些掌聲👏讓我更有動力繼續分享類似的主題,也歡迎提供想了解的主題唷!

參考

喜歡資料科學的朋友應該都有聽過 NLP(自然語言處理)的大名,日常生活的Gmail、Google Search、Spotify等等應用都有使用這個技術。希望透過這個系列與大家稍微分享一下我個人對於 NLP 的看法,讓我們一起探索這個有趣、迷人的領域吧!
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
資料週週New的沙龍 的其他內容
文字資料該怎麼分析? 文字屬於非結構化資料,不像正常身高、體重、年紀等是直接的數值型結構化資料,無法直接在資料科學、機器學習中使用。 因此,需要將文字轉成數值才能進行後續處理,而此轉換又稱為向量化。
文字、語言是生活中不可或缺的一部分,而隨著網路時代的開始,我們更多的活動轉往網路、手機中,而最常見的媒介就是文字(語言)了,不論是新聞、個人心得、心情分享、論文等等,都是透過文字來表達想法。而這麼多的內容,電腦是如何呈現出我們感興趣的內容呢?那首先就是需要讓電腦能夠去解讀、使用文字這種非結構化資料,
文字資料該怎麼分析? 文字屬於非結構化資料,不像正常身高、體重、年紀等是直接的數值型結構化資料,無法直接在資料科學、機器學習中使用。 因此,需要將文字轉成數值才能進行後續處理,而此轉換又稱為向量化。
文字、語言是生活中不可或缺的一部分,而隨著網路時代的開始,我們更多的活動轉往網路、手機中,而最常見的媒介就是文字(語言)了,不論是新聞、個人心得、心情分享、論文等等,都是透過文字來表達想法。而這麼多的內容,電腦是如何呈現出我們感興趣的內容呢?那首先就是需要讓電腦能夠去解讀、使用文字這種非結構化資料,
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
那天看到NLP(Neuro-Linguistic Programming)這個字忽然閃現。 這是一套以「科學」自居,聲稱能在短時間內轉變人的思想、情緒、行為的技巧。 爾後,我忽然看到一個畫面,是蜥蜴人。 蜥蜴人善於偽裝並在人群中穿梭,操控著世界擁有頂尖流量的人,甚至各國大領導都是蜥蜴人
Thumbnail
溝通的目的不是僅僅提供信息,而是讓對方接收並理解信息。 NLP的兩個假設前提:溝通的意義決定於對方的回饋、沒有失敗,只有回饋。
Thumbnail
NLP是什麼?因為我們過往的經驗漸漸形成潛意識,往後我們再回想相關經驗時,會勾起回憶裡的感受,而我們該怎麼將負面回憶的感受改寫,進而突破自己的現有的思考方式呢?
Thumbnail
NLP式溝通適用於各種溝通領域,包括家庭(親子)溝通、職場溝通、業務溝通甚至自我溝通,內文為陶玉銘老師的六個NLP經典短課程大綱(同時也提供客製課程主題)。
Thumbnail
放馬後炮的人在想什麼?老二哲學怎麼回事? 你身邊有沒有這種人?不管你做什麼決定,他都有意見。 ​不是說你這樣不對那樣不好、要嘛就是喜歡馬後炮。 ​事情當發生了、結果明朗了,他才補一句「早就跟你說過聽我的....」 ​ ​這種看起來只會出一張嘴的人,心裡在想什麼呢? ​他其實對自己的判斷頗
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 建議您,可以先閱讀以下四篇文章: NLP溝通系列(一) - 什麼是NLP,如何幫助我們與他人互動更加順利? NLP溝通系列(二) - 溝通過程的誤區有哪些?
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 建議您,可以先閱讀以下三篇文章: 【NLP溝通系列】EP.1 - 什麼是NLP,如何幫助我們與人互動更加順利? 【NLP溝通系列】EP.2 - 溝通過程的誤區有哪些? 觀察 與對方的步調同步
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 建議您,可以先閱讀以下兩篇文章: 【NLP溝通系列】EP.1 - 什麼是NLP,如何幫助我們與人互動更加順利? 【NLP溝通系列】EP.2 - 溝通過程的誤區有哪些? 建立信賴關係 重點回顧
Thumbnail
前言 職場老是犯小人、與客戶溝通總是不順利、常常否定自己...,問問自己有這幾種狀況嗎? 如果有的話那麼表示我們的溝通能力需要改善,所謂的溝通也包含與自己的對話,而溝通其實是有一套邏輯的,我們只要能夠瞭解這樣的邏輯,並持續練習,相信溝通能力會越來越進步。 為什麼對方就是聽不懂? 雞同鴨講?
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 什麼是NLP? 其實就很像我們的電腦程式一般,以眼睛、鼻子接收輸入(N),藉由經驗化為程式並透過思考判斷產生出決策的過程(P),透過語言或肢體進行輸出(L),這就是NLP的基本運作模式。
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
那天看到NLP(Neuro-Linguistic Programming)這個字忽然閃現。 這是一套以「科學」自居,聲稱能在短時間內轉變人的思想、情緒、行為的技巧。 爾後,我忽然看到一個畫面,是蜥蜴人。 蜥蜴人善於偽裝並在人群中穿梭,操控著世界擁有頂尖流量的人,甚至各國大領導都是蜥蜴人
Thumbnail
溝通的目的不是僅僅提供信息,而是讓對方接收並理解信息。 NLP的兩個假設前提:溝通的意義決定於對方的回饋、沒有失敗,只有回饋。
Thumbnail
NLP是什麼?因為我們過往的經驗漸漸形成潛意識,往後我們再回想相關經驗時,會勾起回憶裡的感受,而我們該怎麼將負面回憶的感受改寫,進而突破自己的現有的思考方式呢?
Thumbnail
NLP式溝通適用於各種溝通領域,包括家庭(親子)溝通、職場溝通、業務溝通甚至自我溝通,內文為陶玉銘老師的六個NLP經典短課程大綱(同時也提供客製課程主題)。
Thumbnail
放馬後炮的人在想什麼?老二哲學怎麼回事? 你身邊有沒有這種人?不管你做什麼決定,他都有意見。 ​不是說你這樣不對那樣不好、要嘛就是喜歡馬後炮。 ​事情當發生了、結果明朗了,他才補一句「早就跟你說過聽我的....」 ​ ​這種看起來只會出一張嘴的人,心裡在想什麼呢? ​他其實對自己的判斷頗
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 建議您,可以先閱讀以下四篇文章: NLP溝通系列(一) - 什麼是NLP,如何幫助我們與他人互動更加順利? NLP溝通系列(二) - 溝通過程的誤區有哪些?
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 建議您,可以先閱讀以下三篇文章: 【NLP溝通系列】EP.1 - 什麼是NLP,如何幫助我們與人互動更加順利? 【NLP溝通系列】EP.2 - 溝通過程的誤區有哪些? 觀察 與對方的步調同步
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 建議您,可以先閱讀以下兩篇文章: 【NLP溝通系列】EP.1 - 什麼是NLP,如何幫助我們與人互動更加順利? 【NLP溝通系列】EP.2 - 溝通過程的誤區有哪些? 建立信賴關係 重點回顧
Thumbnail
前言 職場老是犯小人、與客戶溝通總是不順利、常常否定自己...,問問自己有這幾種狀況嗎? 如果有的話那麼表示我們的溝通能力需要改善,所謂的溝通也包含與自己的對話,而溝通其實是有一套邏輯的,我們只要能夠瞭解這樣的邏輯,並持續練習,相信溝通能力會越來越進步。 為什麼對方就是聽不懂? 雞同鴨講?
Thumbnail
前言 文章內容皆來自「NLP超強溝通術」這本書籍的讀後心得,吸收、內化後透過作者自己的理解進行整理與輸出。 什麼是NLP? 其實就很像我們的電腦程式一般,以眼睛、鼻子接收輸入(N),藉由經驗化為程式並透過思考判斷產生出決策的過程(P),透過語言或肢體進行輸出(L),這就是NLP的基本運作模式。