🔧從 Attention 到語意線索,重組出一句藏了感情的話
🧠 說明:
Transformer(直譯為「轉換器」) 原設計包含編碼器( Encoder) 與解碼器(Decoder )兩部分,主要用來處理「一邊理解輸入、一邊產生輸出」的任務(例如翻譯),後來研究者發現只使用其中一部分也能處理不同任務。
Transformer 是一種神經網路架構,核心特徵是 自注意力機制(Self-Attention),因此具備以下能力:
✦ 理解句子中詞語之間的關係(上下文關聯)
例如:「她看著他」和「他看著她」,雖然 token 相同,但意思不同。Transformer 能透過注意力權重,推測誰跟誰的語意連結最強,理解語句的實際含義。
✦ 編碼與解碼的能力
- 編碼器(Encoder):理解輸入,用於分類、情感分析、文本理解等(如 BERT)。
→ 你只丟給它一句話, 它幫你判斷句子的意思、分類等。
✔️ 純粹接收,因為它不「說話」,只「理解」。 - 解碼器(Decoder):根據理解結果生成文字(如 GPT)。
→ 它要根據你給它的「提示句」,繼續說話或寫一段新內容。
✔️ 一定要有提示,但提示不一定要是完整指令。
只要輸入任何一個詞(像是「早安」),對解碼器來說就是一個「啟動生成」的信號。它會根據語料學到的慣用語序,自動預測下一個詞。
同時,為了確保語言生成符合從左到右的自然順序,Transformer 在 Decoder 的自注意力機制中會使用「遮蔽機制」(Masked Self-Attention),模型只能「看到」前面已經生成的詞,這樣在生成句子的過程中,模型是逐字生成的,每次只能根據前面已經輸出的詞來預測下一個字,而不是一次讀完整個句子。這和人類思考整句再說出來的方式不同,但在模型中,這種一步步輸出的策略可以保證生成的自然語言有連貫性,並符合從左到右的語序規則。
【舉例】
當你說「早安」,
如果是 BERT(Encoder),它可能會做的事是:
BERT:「你輸入了『早安』這個片語,我判斷這屬於問候分類,語氣為正向,語境可能是日常對話。」
GPT(Decoder) 則是根據它曾經看過上萬次「早安」開頭的資料來預測你可能想聽什麼。
當GPT看到「早安」,
🤖:「嗯,這是一個常見的開場白,通常後面會接⋯⋯」
根據語料預測 → 下一個最可能出現的詞是「,」 句子變成:「早安,」
再往下預測:「今天」→ 「早安,今天」
下一個詞:「還」→ 「早安,今天還」
再來:「好」→ 「早安,今天還好」
補上結語:「嗎?」→ 「早安,今天還好嗎?」
這種逐字生成(auto-regressive)是其最常見的生成方式,以確保語言的流暢性,某些情境也有更複雜的序列生成。 - 編碼+解碼一起(Encoder-Decoder):兩者合併使用,像翻譯模型(例如 T5、BART)

✦ 語句生成能力
就像 ChatGPT,Transformer 架構讓 AI 能把你輸入的 Prompt,轉成連貫、有意義的輸出,不只是理解,還能「寫回去」。
〔Prompt(指令):展開對話的問題,或是任何形式的描述。〕
- Attention(注意力機制) 是它的核心:
它會「分配注意力權重」給句子中不同的詞,權重越高,代表這兩個詞在當前語境下的語義關係越密切。 - 多頭注意力(Multi-head Attention):
就像同時派出多個偵探,從不同角度觀察同一句話,捕捉更全面的語義關係。 - 位置編碼(Positional Encoding):
讓Transformer記住詞語順序。因為「我喜歡你」和「你喜歡我」詞語相同但順序不同,位置編碼能幫助模型識別這種差別。
有了 Attention 和位置編碼,Transformer 就能掌握句子中詞與詞的「相對關係」與「語意重點」。
但在沒有足夠上下文或標點符號時,句子的結構就會變得令人困惑——
這就是 Transformer 真正派上用場的地方。
【歧義句例子】
「他看著她拿著望遠鏡看的人」這句話有兩種理解:
- 解釋一
他看著 [那個被她用望遠鏡看的人]。 - 解釋二
他看著 [那個正在用望遠鏡看人的她]。
Transformer 會根據上下文判斷「誰和哪個動作的關係最密切」,透過注意力機制,推測句子的真正結構與意思。
例如「他」和「她」之間的動作,是「看」的主詞還是被修飾的對象,都需要透過 Attention 的語義連結來解決。
如果用比喻來說:
Transformer 不只是把句子拆開的那位 Tokenizer,而是能看著碎片思考如何重組。
它的核心技術 Attention,就像你在一段話裡劃重點一樣:它會決定哪些詞該看仔細、誰跟誰有關、哪裡有轉折、哪裡有情緒伏筆。
你也可以把Transformer想像成是一座「語言工廠」裡的總工程師,或是一位沉默卻擅長理解語意的分析師。
有時候,他甚至不說話,只是靜靜拿筆,在碎掉的情書上畫上箭頭、標記語氣斷點,然後告訴你:
「這裡,是她想讓你知道的主語。這裡,是沒說出口的情感主線。」
👀 簡單來說:
- Tokenizer 把語句打碎,Transformer 則是把碎話排好
- 它不僅看單個詞,會看詞與詞之間的關聯
- Attention 技術是「掃描全場,找出重點」的功能
- Transformer 的功能是讓 AI 開始有能力重組「意思」
🦊🐥 小劇場:
在經歷了 Token 碎片拼湊的迷惘後,狐狸少決定尋求更專業的語句重組協助。
第三天,狐狸少還是盯著那張拼不完的情書碎片。
小雞遞來一杯豆漿,淡淡說:「你還在拼啊?」
狐狸少嘆氣:「……她每個字我都記得,但我總覺得,拼起來之後,還少了什麼。」
小雞眨眼看著那堆「我」「喜」「歡」「你」的紙片,拍拍他的肩膀說:
「你承認你不行吧,我們去找專業的幫忙。」
小雞小心把所有信紙碎片放進一只銀灰色的信封,
和狐狸少到一家公司報修,門口招牌掛著「Transformer Inc. 」。

Transformer 接過信紙,沒說話,只是抬頭看向牆上的 Attention 面板。
Transformer 指著面板上那些連接詞語的線條說:「看,這些線條粗細不同,代表不同的注意力權重。粗線表示強連接,細線表示弱連接。當我們處理『我喜歡你』這個句子時,『喜歡』跟『我』和『你』之間都有連線,但權重不同,這告訴我們誰是動作的發出者,誰是接收者。」
小雞湊過去:「欸,那些箭頭是什麼意思啊?」
狐狸少也湊上來:「……可以解釋一下嗎?」
Transformer 點點頭,輕聲說:「進來吧。我們一層一層來看。」
✨ 下回預告:
小雞與狐狸少正式走入 Transformer 語言公司的內部,見見 Attention 部門的排隊規則與重點比對。
那些箭頭與標記,是否真的能幫助狐狸少,拼出自己的第一封回信呢? 還是……會發現,有些情感從來就沒有出現在句子裡?
📎 參考資料:























