第二部:《深度學習》68/100 📌 Embedding 向量與語意空間 🌌 語意其實是可以「畫」出來的!

更新 發佈閱讀 12 分鐘

AI時代系列(2) 機器學習三部曲: 🔹 第二部:《深度學習 —— 神經網路的革命》

68/100 第七週:📌 語言模型與生成式 AI(BERT、GPT)🗣🔍

68.Embedding 向量與語意空間 🌌 語意其實是可以「畫」出來的!

________________________________________

🎯 單元導讀:

人類理解語言靠的是語感與經驗,但對機器來說,它理解語言的方式是將「詞」轉換成向量(Embedding),並映射到一個可計算的語意空間中。這就是語意表示技術的精髓。

本課將帶你認識:

什麼是 Embedding?

為什麼它能表示語意?

如何「畫」出語意空間?

在 NLP 和推薦系統中的實際應用

________________________________________

🧠 一、什麼是 Embedding?

➤ 定義:

Embedding 是一種將離散符號(如詞、句子、商品)轉換成連續向量的方式,讓這些符號可以進入神經網路進行學習與推理。

📘 例子:

"king" → [0.35, 0.62, -0.27, …](一個 300 維向量)

________________________________________

🌐 二、語意空間是什麼?

Embedding 向量的最大特點是:語意相似的詞,其向量距離也會很近,這使得我們可以在幾何空間中觀察語言邏輯!

✅ 實際例子(Word2Vec 經典關係):

vector("king") - vector("man") + vector("woman") ≈ vector("queen")

📊 可視化技術:

t-SNE / PCA:將高維語意空間投影為 2D 或 3D

用來「畫」出語言語意的地圖,例如:

o 國家與首都聚集一群

o 動物群 vs 食物群明顯分開

________________________________________

🧩 三、Embedding 的來源與訓練方法

在自然語言處理中,詞向量(Word Embedding) 是將文字轉換為數值向量的關鍵技術,分為兩種主要類型:

靜態詞向量(Static Word Embeddings):每個詞對應一個固定向量,無論上下文如何都不變,代表詞的平均語意。常見方法包括 Word2Vec、GloVe。

動態詞向量(Contextual Word Embeddings):詞的向量會依據不同上下文動態變化,更能捕捉語意差異。例如 BERT、GPT 這類大型語言模型能根據句子脈絡給出更準確的語意表示。

總結來說,動態詞向量比靜態詞向量更靈活且語意理解能力更強,已成為現代語言模型的主流。

_______________________________________

📦 四、各種 NLP 對象的向量表示

在自然語言處理中,為了讓模型能處理文字資訊,必須將不同層級的語言單位(如詞、句子、段落、文件)轉換為數值向量,其表示方式如下:

詞(word):透過 embedding lookup 表將每個詞轉換為固定維度的詞向量,這是最基礎的處理方式。

句子(sentence):可將句中所有詞向量加總或平均,或在使用 BERT 等模型時,取 [CLS] 向量作為整句的語意表示。

段落(paragraph):可使用詞或句子的平均向量,也可透過像 SBERT 這類句嵌入模型獲得更準確的語意向量。

文件(document):可以將 TF-IDF 權重與詞向量結合,或採用像 Doc2Vec 等專門設計用來表示長文的模型進行轉換。

這些向量化技術讓語言單位得以輸入模型中,進一步應用於分類、摘要、問答等任務。

________________________________________

💡 五、語意空間的應用場景

詞向量技術廣泛應用於多種 AI 與自然語言處理領域,透過將文字轉換為向量形式,使機器能理解語意並進行比對與推理:

在 NLP 應用 中,如搜尋、分類、翻譯、摘要與情緒分析,都依賴向量化表示來捕捉文字的語意特徵。

聊天機器人(Chatbot) 可將使用者輸入轉為向量,並根據向量相似度尋找最合適的回應。

推薦系統 中,將商品與用戶資料轉為向量,進行語意層面的相似性比對,提升推薦準確度。

相似詞查找 可利用詞向量空間尋找語意相近的詞,例如輸入「happy」,模型可能找出「joyful」、「cheerful」等。

在 多語翻譯 任務中,藉由將不同語言嵌入同一向量空間,可直接比對語意相同的詞或句子,實現跨語言理解與翻譯。

這些應用展示了詞向量在語意理解上的強大能力,為智慧應用提供了基礎。

________________________________________

🧪 六、Embedding 示例與可視化(簡化實作)

以 Python + gensim 讀取詞向量 + 使用 matplotlib 可視化:

python

from sklearn.manifold import TSNE

import matplotlib.pyplot as plt

from gensim.models import KeyedVectors

model = KeyedVectors.load_word2vec_format("GoogleNews-vectors.bin", binary=True)

words = ["king", "queen", "man", "woman", "apple", "banana", "fruit"]

vectors = [model[word] for word in words]

tsne = TSNE(n_components=2)

reduced = tsne.fit_transform(vectors)

plt.figure(figsize=(8,6))

for i, word in enumerate(words):

plt.scatter(reduced[i,0], reduced[i,1])

plt.annotate(word, (reduced[i,0], reduced[i,1]))

plt.title("Word Embedding 語意空間視覺化")

plt.show()

這段程式碼透過 t-SNE 將詞嵌入向量降維為 2D,讓我們可以觀察單詞在語意空間中的「相對距離與分布」。

例如:「king」與「queen」、「man」與「woman」應該會靠得比較近;「apple」、「banana」、「fruit」也可能形成另一個群集,代表語意相近。

________________________________________

📚 七、小結與學習啟示:

✅ Embedding 是語言被機器理解的第一步:把語意「向量化」

✅ 向量之間的幾何關係,反映了詞語之間的語意關聯

✅ 你可以「畫出語言」的語意結構圖,也可以用它來驅動對話、搜尋、推薦系統!

________________________________________

💬 問題挑戰與思考:

1. 為什麼「靜態詞向量」會有語意歧義問題?如何用動態向量解決?

✅ 原因:語意多樣但向量唯一

「靜態詞向量」(如 Word2Vec、GloVe)會為每個詞分配一個固定向量,不管上下文語境為何:

例如單詞 “bank”,在句子:

o “He sat by the river bank.”

o “She works at the bank downtown.”

兩者語意不同(河岸 vs. 銀行),但靜態詞向量只能選擇一個平均語意,導致語意混淆與理解偏差。

✅ 解法:動態詞向量(Contextual Embedding)

如 BERT、GPT 這類模型能根據上下文產生不同的向量:

每次出現的詞,其向量會因周圍詞語不同而改變。

模型利用 Transformer 結構全局編碼句子脈絡,辨識詞義。

🧠 延伸:

動態詞向量能有效解決「多義詞」問題,提升語意精準度,已成為 NLP 模型主流架構。

________________________________________

2. 如果你要做一個「AI 詩詞創作輔助器」,Embedding 向量能幫上什麼忙?

詞向量在詩詞創作中,可以扮演以下關鍵角色:

✅ 詞語語意擴展與聯想

輸入一個主題詞,例如「春」,模型可找出語意相近的詞如「花」「綠」「燕」「柳」等,做為詩意素材延伸。

利用詞向量的語意鄰近性,進行詞彙擴充或比對。

✅ 韻律與詞性搭配輔助

若將詞彙依照韻腳、詞性嵌入向量空間,可用來推薦符合格式的詞句(如對仗、押韻等)。

✅ 主題風格匹配

輸入一段詩意描述,可透過向量比對找出風格相近的古詩參考句或用語。

🧠 延伸應用:

使用句向量(如 SBERT)找出語意上風格相近的整句或詩段,協助靈感創作與風格模仿。

________________________________________

3. 對於推薦系統,你會如何設計商品與使用者的語意向量表示方式?

推薦系統的核心在於語意相似度比對,embedding 技術提供了自然的向量化途徑。

✅ 商品向量設計方式:

文字描述轉向量: 使用 BERT、SBERT 或自訓模型將商品名稱、簡介轉為語意向量。

類別資訊: 結合類別編碼、標籤詞嵌入。

圖片/影片商品: 可用 CLIP 等模型將視覺資訊也嵌入語意空間(多模態推薦)。

✅ 使用者向量設計方式:

行為序列建模: 用戶看過、買過的商品向量加總 / 平均 / 時序模型(如 GRU4Rec)建模。

文字評論分析: 用戶留言/評價轉向量,反映偏好風格與語調。

查詢紀錄: 搜尋內容語意向量化,反映當下需求。

✅ 向量比對應用:

透過 cosine similarity 或 ANN(Approximate Nearest Neighbor)技術快速比對商品與用戶的語意接近度,做出推薦。

🧠 延伸設計:

可以考慮加入 Meta-embedding 概念,將多種資訊源(文字、類別、使用者點擊)融合進同一語意空間,提升推薦準確度與多樣性。



留言
avatar-img
留言分享你的想法!
avatar-img
Hansen W的沙龍
10會員
274內容數
AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台,主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例,更強調理性思維與行動力的結合。無論你是AI初學者、創業者,還是追求人生升維的行者,都能在這裡找到前進的方向與志同道合的夥伴。
Hansen W的沙龍的其他內容
2025/09/22
ChatGPT 基於 GPT-3.5/4,結合自回歸生成、多輪記憶與 RLHF,實現自然流暢的對話能力。其應用遍及教育、商務、程式與創意內容,優於傳統聊天機器人。透過 Prompt 設計與溫度控制可調整輸出品質,但仍需結合檢索與風控機制確保準確與安全。
2025/09/22
ChatGPT 基於 GPT-3.5/4,結合自回歸生成、多輪記憶與 RLHF,實現自然流暢的對話能力。其應用遍及教育、商務、程式與創意內容,優於傳統聊天機器人。透過 Prompt 設計與溫度控制可調整輸出品質,但仍需結合檢索與風控機制確保準確與安全。
2025/09/22
Prompt Engineering 與 In-Context Learning 透過設計提示與範例,引導大型語言模型執行任務,無需額外訓練即可完成翻譯、情感分析、對話生成等應用。其優勢是快速、彈性高,但結果依賴提示設計。結合 Chain-of-Thought 與格式控制,可大幅提升準確率與實用性。
2025/09/22
Prompt Engineering 與 In-Context Learning 透過設計提示與範例,引導大型語言模型執行任務,無需額外訓練即可完成翻譯、情感分析、對話生成等應用。其優勢是快速、彈性高,但結果依賴提示設計。結合 Chain-of-Thought 與格式控制,可大幅提升準確率與實用性。
2025/09/22
微調(Fine-tuning)是將預訓練語言模型調整為特定任務專家的關鍵方法。透過任務頭與小量資料訓練,可應用於分類、問答、摘要等場景。常見技巧如凍結權重、層別學習率與 Dropout,有助提升效果並防止過擬合。
2025/09/22
微調(Fine-tuning)是將預訓練語言模型調整為特定任務專家的關鍵方法。透過任務頭與小量資料訓練,可應用於分類、問答、摘要等場景。常見技巧如凍結權重、層別學習率與 Dropout,有助提升效果並防止過擬合。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 39 至 AI說書 - 從0開始 - 69 的第二章內容,我們拿 Encoder 出來看: 幾點注意如下: BERT 模型使用 M
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 AI說書 - 從0開始 - 93 介紹了 The Corpus of Linguistic Acceptability (CoLA),其核心思想為:如果該句子在語
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在 AI說書 - 從0開始 - 74 中提到,我們想要建立「Transformer 數學」與「ChatGPT 產生的文字」兩者間的關係。 有鑑於此,我們以句子「
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Decoder
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 講完 Transformer 之 Encoder 架構中的 Embedding 與 Positional Encoding 部分,現在進入 Multi-Head Att
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 再度回到 Transformer 架構中的 Encoder 部分,如下圖所示: 我現在手上有的素材如下: Embedding 訓練方式:AI說書 - 從0開始
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News