方格子 vocus

【Transformer：讓碎片句子重組】

Zivra

發佈於I See Dead Data 研究室

2025/05/23 更新2025/05/23 發佈閱讀 8 分鐘

🔧從 Attention 到語意線索，重組出一句藏了感情的話

🧠 說明：

Transformer（直譯為「轉換器」）原設計包含編碼器( Encoder) 與解碼器(Decoder )兩部分，主要用來處理「一邊理解輸入、一邊產生輸出」的任務（例如翻譯），後來研究者發現只使用其中一部分也能處理不同任務。

Transformer 是一種神經網路架構，核心特徵是 自注意力機制（Self-Attention），因此具備以下能力：

✦ 理解句子中詞語之間的關係（上下文關聯）

例如：「她看著他」和「他看著她」，雖然 token 相同，但意思不同。Transformer 能透過注意力權重，推測誰跟誰的語意連結最強，理解語句的實際含義。

✦ 編碼與解碼的能力

編碼器（Encoder）：理解輸入，用於分類、情感分析、文本理解等（如 BERT）。
→ 你只丟給它一句話，它幫你判斷句子的意思、分類等。　
✔️ 純粹接收，因為它不「說話」，只「理解」。
解碼器（Decoder）：根據理解結果生成文字（如 GPT）。
→ 它要根據你給它的「提示句」，繼續說話或寫一段新內容。
✔️ 一定要有提示，但提示不一定要是完整指令。

只要輸入任何一個詞（像是「早安」），對解碼器來說就是一個「啟動生成」的信號。它會根據語料學到的慣用語序，自動預測下一個詞。
同時，為了確保語言生成符合從左到右的自然順序，Transformer 在 Decoder 的自注意力機制中會使用「遮蔽機制」（Masked Self-Attention），模型只能「看到」前面已經生成的詞，這樣在生成句子的過程中，模型是逐字生成的，每次只能根據前面已經輸出的詞來預測下一個字，而不是一次讀完整個句子。這和人類思考整句再說出來的方式不同，但在模型中，這種一步步輸出的策略可以保證生成的自然語言有連貫性，並符合從左到右的語序規則。

【舉例】
當你說「早安」，
如果是 BERT（Encoder），它可能會做的事是：
BERT：「你輸入了『早安』這個片語，我判斷這屬於問候分類，語氣為正向，語境可能是日常對話。」

GPT（Decoder）則是根據它曾經看過上萬次「早安」開頭的資料來預測你可能想聽什麼。
當GPT看到「早安」，
🤖：「嗯，這是一個常見的開場白，通常後面會接⋯⋯」
根據語料預測 → 下一個最可能出現的詞是「，」句子變成：「早安，」
再往下預測：「今天」→ 「早安，今天」
下一個詞：「還」→ 「早安，今天還」
再來：「好」→ 「早安，今天還好」
補上結語：「嗎？」→ 「早安，今天還好嗎？」

這種逐字生成（auto-regressive）是其最常見的生成方式，以確保語言的流暢性，某些情境也有更複雜的序列生成。
編碼＋解碼一起（Encoder-Decoder）：兩者合併使用，像翻譯模型（例如 T5、BART）

✦ 語句生成能力

就像 ChatGPT，Transformer 架構讓 AI 能把你輸入的 Prompt，轉成連貫、有意義的輸出，不只是理解，還能「寫回去」。

〔Prompt（指令）：展開對話的問題，或是任何形式的描述。〕

Attention（注意力機制） 是它的核心：
它會「分配注意力權重」給句子中不同的詞，權重越高，代表這兩個詞在當前語境下的語義關係越密切。
多頭注意力(Multi-head Attention)：
就像同時派出多個偵探，從不同角度觀察同一句話，捕捉更全面的語義關係。
位置編碼(Positional Encoding)：
讓Transformer記住詞語順序。因為「我喜歡你」和「你喜歡我」詞語相同但順序不同，位置編碼能幫助模型識別這種差別。

有了 Attention 和位置編碼，Transformer 就能掌握句子中詞與詞的「相對關係」與「語意重點」。
但在沒有足夠上下文或標點符號時，句子的結構就會變得令人困惑——
這就是 Transformer 真正派上用場的地方。

【歧義句例子】

「他看著她拿著望遠鏡看的人」這句話有兩種理解：

解釋一
他看著 [那個被她用望遠鏡看的人]。
解釋二
他看著 [那個正在用望遠鏡看人的她]。

Transformer 會根據上下文判斷「誰和哪個動作的關係最密切」，透過注意力機制，推測句子的真正結構與意思。

例如「他」和「她」之間的動作，是「看」的主詞還是被修飾的對象，都需要透過 Attention 的語義連結來解決。

如果用比喻來說：

Transformer 不只是把句子拆開的那位 Tokenizer，而是能看著碎片思考如何重組。
它的核心技術 Attention，就像你在一段話裡劃重點一樣：它會決定哪些詞該看仔細、誰跟誰有關、哪裡有轉折、哪裡有情緒伏筆。

你也可以把Transformer想像成是一座「語言工廠」裡的總工程師，或是一位沉默卻擅長理解語意的分析師。

有時候，他甚至不說話，只是靜靜拿筆，在碎掉的情書上畫上箭頭、標記語氣斷點，然後告訴你：

「這裡，是她想讓你知道的主語。這裡，是沒說出口的情感主線。」

👀 簡單來說：

Tokenizer 把語句打碎，Transformer 則是把碎話排好
它不僅看單個詞，會看詞與詞之間的關聯
Attention 技術是「掃描全場，找出重點」的功能
Transformer 的功能是讓 AI 開始有能力重組「意思」

🦊🐥 小劇場：

在經歷了 Token 碎片拼湊的迷惘後，狐狸少決定尋求更專業的語句重組協助。

第三天，狐狸少還是盯著那張拼不完的情書碎片。

小雞遞來一杯豆漿，淡淡說：「你還在拼啊？」

狐狸少嘆氣：「……她每個字我都記得，但我總覺得，拼起來之後，還少了什麼。」

小雞眨眼看著那堆「我」「喜」「歡」「你」的紙片，拍拍他的肩膀說：
「你承認你不行吧，我們去找專業的幫忙。」

小雞小心把所有信紙碎片放進一只銀灰色的信封，

和狐狸少到一家公司報修，門口招牌掛著「Transformer Inc. 」。

Transformer 接過信紙，沒說話，只是抬頭看向牆上的 Attention 面板。

Transformer 指著面板上那些連接詞語的線條說：「看，這些線條粗細不同，代表不同的注意力權重。粗線表示強連接，細線表示弱連接。當我們處理『我喜歡你』這個句子時，『喜歡』跟『我』和『你』之間都有連線，但權重不同，這告訴我們誰是動作的發出者，誰是接收者。」

小雞湊過去：「欸，那些箭頭是什麼意思啊？」

狐狸少也湊上來：「……可以解釋一下嗎？」

Transformer 點點頭，輕聲說：「進來吧。我們一層一層來看。」

✨ 下回預告：

小雞與狐狸少正式走入 Transformer 語言公司的內部，見見 Attention 部門的排隊規則與重點比對。

那些箭頭與標記，是否真的能幫助狐狸少，拼出自己的第一封回信呢？還是……會發現，有些情感從來就沒有出現在句子裡？

📎 參考資料：

含 AI 應用內容

I See Dead DataI See Dead Data 研究室

留言

I See Dead Data

0會員

3內容數

歡迎來到「I See Dead Data」—— 聽起來有點陰森，但保證陽光普照的小小空間！你是不是常被AI專有名詞嚇到吃手手？我們會化身數據靈媒，用不太正經的方式解說那些冷冰冰的 AI 概念。讓你發現，原來 AI 不一定冰冷，語氣也不是只有人類才有。別怕，這裡沒有死而復生的資料，只有活跳跳的科普知識。

#方格新手的其他內容

方格新手村：讓 vocus 送你見面禮！

目前共 31451 篇

方格子 vocus 官方沙龍

🏝️ 方格創作島｜「寫不出來」怎麼辦？──野格團不藏私祕笈分享

Mes études

在格子的縫隙裡，我「看見」了自己

你可能也想看

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28