GPT 的 T

閱讀時間約 4 分鐘

GPT的核心基礎是Transformer架構,它依賴於「自注意力機制」和「多層神經網絡」的組合。以下是深入的機制講解,包括自注意力、位置編碼、層級結構、訓練過程和生成過程的細節。


1. 自注意力機制(Self-Attention Mechanism)


自注意力機制是GPT生成高質量語言的關鍵。這一機制使得模型能夠在處理每個單詞時,不僅考慮當前單詞,還會參考句子中其他單詞的影響。


基本原理:在處理一個句子時,模型為每個單詞分配一個「注意力權重」,表示這個單詞在句子中的相對重要性。自注意力機制能夠自適應地決定句子中每個單詞之間的關聯,特別是在長距離依賴情況下(如「我昨天和朋友去吃飯,食物非常好吃。」中的「食物」與「好吃」)。


具體步驟:


1. Query、Key、Value的計算:每個單詞向量會通過線性變換生成三個向量,稱為Query、Key和Value向量。



2. 注意力權重的計算:每個Query和句子中所有Key向量計算相似度(通常使用內積),得到一組注意力權重,表示每個單詞對當前單詞的影響力。



3. 加權求和:根據注意力權重對每個單詞的Value向量進行加權求和,得到當前單詞的最終表示。





這種機制讓GPT模型可以靈活地處理不同長度的句子,並保持對關鍵詞的高度敏感性。


2. 多頭自注意力機制(Multi-Head Self-Attention)


在單一自注意力機制上,Transformer採用多頭自注意力來增加模型表達能力。


多頭的作用:每個頭獨立地進行一次自注意力計算,但使用不同的權重矩陣,因此每個頭會捕捉不同的語義關係,這樣可以同時捕捉長距離和短距離依賴。


合併結果:每個頭的輸出被拼接在一起,然後通過一層線性變換,融合不同頭的信息,形成每個單詞的最終表示。



3. 位置編碼(Positional Encoding)


由於Transformer模型不包含卷積或遞歸結構,因此無法直接感知序列順序。為了解決這個問題,GPT使用位置編碼,將位置信息添加到每個單詞的表示中。


正弦和餘弦位置編碼:GPT通常採用正弦和餘弦函數來生成位置編碼。每個單詞的位置編碼根據其在句子中的位置而不同,這樣模型可以根據這些位置編碼來識別單詞的順序。


學習到的位置編碼:在一些改進的版本中,位置編碼被設計為可訓練的向量,模型會在訓練過程中自動學習序列位置。



4. 殘差連接和層歸一化(Residual Connections and Layer Normalization)


Transformer的每一層(包括多頭自注意力層和前饋神經網絡層)之後都會有一個殘差連接和層歸一化操作。


殘差連接:將輸入直接加到輸出上,避免深層網絡的梯度消失問題,提升訓練穩定性。


層歸一化:對輸出進行標準化,使得每層的輸出均值為0,方差為1,幫助模型更好地收斂。



5. 前饋神經網絡層(Feed-Forward Neural Network Layer)


在每個自注意力層之後,Transformer會應用一個獨立的前饋神經網絡。這一層通常由兩個線性層組成,中間包含一個非線性激活函數(如ReLU)。


作用:前饋層可以進一步提取自注意力層輸出的特徵,並將它們轉換為更高層次的表示。


運行方式:前饋層在每個位置上單獨運行,與序列中的其他單詞無關。



6. 訓練過程


GPT的訓練過程基於「無監督學習」,即在大量文本數據上進行自回歸訓練,模型通過學習預測下一個單詞來學習語言的模式。


目標函數:GPT的損失函數通常是交叉熵損失,旨在最大化正確單詞出現在指定位置的概率。


梯度下降:在訓練過程中,模型使用反向傳播和梯度下降來更新權重,使預測誤差逐步減小。



7. 生成過程


當GPT生成文本時,它會逐步生成每個單詞,直到達到預設長度或生成結束標記。


自回歸生成:GPT的生成過程是自回歸的,即每次生成一個單詞,然後將生成的單詞作為輸入,進一步生成下一個單詞。


溫度和Top-k/Top-p抽樣:為了控制生成質量,GPT可以使用「溫度」參數來調整隨機性,或採用Top-k和Top-p抽樣方法,限制模型的候選詞彙,使得生成結果既符合上下文,又具有一定的創造性。


終止條件:GPT會根據預設條件(例如生成固定字數或生成結束標記)來停止生成。



總結


GPT透過多頭自注意力、自回歸生成、位置編碼、殘差連接等技術,極大地提升了模型的語言理解和生成能力。這些技術相輔相成,使得GPT能夠生成語法正確、內容一致的長文本。正是這種技術上的創新,使GPT在自然語言處理領域取得了突破性進展。



4會員
213內容數
萬物皆空.. 需要的 只是一個乾淨明亮的地方
留言0
查看全部
發表第一個留言支持創作者!
一直都放在房間 的其他內容
在那個未來的世界裡,城市被分成了兩個極端的領域:一個是富人所在的高層天際,另一個則是窮人被困的灰色底層。富人們的生活彷彿在夢境中。他們居住在高聳入雲的摩天大樓上層,那裡擁有一切便利和奢華。每一棟大樓頂層都有懸浮泳池和私人花園,花園裡的植物是為了抵禦污染而特別培育的,提供了一片純淨、鮮明的綠意。他們不
大師是一個極有名氣的老拳師,鬍子灰白,雙眼卻如鷹隼般鋒利。他曾在全國賽場上縱橫無敵,但現在,他在一間破舊的拳館裡訓練著一群滿腔熱血的年輕人。他們年輕,充滿了對勝利的渴望,卻也天真,以為僅靠熱情就能打倒對手。 「年輕人要精盡,」大師站在拳館中央,冷冷地說道。這句話,他說得簡潔有力,不帶絲毫遲疑。
在遙遠的未來,科技進步使人類擁有了令人難以置信的力量。這時代的地球上,每個人都擁有一種稱為「特質」的天賦,這種特質可以增強身體能力、操控元素,甚至穿越時間。然而,特質的強度和稀有度卻隨人而異,且只有極少數人才擁有無可比擬的強大特質。他們被稱為「不可多得貨色」,每一位都擁有獨特的標誌性力量,並在社會中
元大台灣50正2(00631L)自2014年11月成立以來,曾經歷多次市場波動。根據歷史數據,該ETF在2015年4月達到當時的高點,隨後進入下跌趨勢,直到2017年5月才重新回到並超越該高點。因此,投資者在2015年4月高點買入後,需等待約兩年(約24個月)才能解套。 需要注意的是,槓桿型E
過往許多創業大佬的例子在今天已經變成激烈競爭的市場。但在這些創業者當時起步時,這些領域並非像現在這樣擁擠。彼得提爾強調的「秘密」其實指的是當一個領域在早期未被普遍看好或忽視時,某些人看到了其中的潛力。這種能力並不一定要求普通人馬上能發現重大「秘密」,而是更鼓勵我們去找尋那些身邊未被利用的小機會,並在
城市陷入死寂,哥吉拉佇立在廢墟中,如同一座無法撼動的神明。牠的目光冷酷,注視著荒蕪的地平線,從不動搖,仿佛一切在牠面前都無足輕重。 突然,一道快如閃電的身影劃破天際,伴隨著一聲輕巧的「吉」聲。這是一個矮小但身形矯健的生物,名叫跳好。牠輕盈地穿越高空,目標直指那龐然大物的頭頂。跳好的身姿優雅自如
在那個未來的世界裡,城市被分成了兩個極端的領域:一個是富人所在的高層天際,另一個則是窮人被困的灰色底層。富人們的生活彷彿在夢境中。他們居住在高聳入雲的摩天大樓上層,那裡擁有一切便利和奢華。每一棟大樓頂層都有懸浮泳池和私人花園,花園裡的植物是為了抵禦污染而特別培育的,提供了一片純淨、鮮明的綠意。他們不
大師是一個極有名氣的老拳師,鬍子灰白,雙眼卻如鷹隼般鋒利。他曾在全國賽場上縱橫無敵,但現在,他在一間破舊的拳館裡訓練著一群滿腔熱血的年輕人。他們年輕,充滿了對勝利的渴望,卻也天真,以為僅靠熱情就能打倒對手。 「年輕人要精盡,」大師站在拳館中央,冷冷地說道。這句話,他說得簡潔有力,不帶絲毫遲疑。
在遙遠的未來,科技進步使人類擁有了令人難以置信的力量。這時代的地球上,每個人都擁有一種稱為「特質」的天賦,這種特質可以增強身體能力、操控元素,甚至穿越時間。然而,特質的強度和稀有度卻隨人而異,且只有極少數人才擁有無可比擬的強大特質。他們被稱為「不可多得貨色」,每一位都擁有獨特的標誌性力量,並在社會中
元大台灣50正2(00631L)自2014年11月成立以來,曾經歷多次市場波動。根據歷史數據,該ETF在2015年4月達到當時的高點,隨後進入下跌趨勢,直到2017年5月才重新回到並超越該高點。因此,投資者在2015年4月高點買入後,需等待約兩年(約24個月)才能解套。 需要注意的是,槓桿型E
過往許多創業大佬的例子在今天已經變成激烈競爭的市場。但在這些創業者當時起步時,這些領域並非像現在這樣擁擠。彼得提爾強調的「秘密」其實指的是當一個領域在早期未被普遍看好或忽視時,某些人看到了其中的潛力。這種能力並不一定要求普通人馬上能發現重大「秘密」,而是更鼓勵我們去找尋那些身邊未被利用的小機會,並在
城市陷入死寂,哥吉拉佇立在廢墟中,如同一座無法撼動的神明。牠的目光冷酷,注視著荒蕪的地平線,從不動搖,仿佛一切在牠面前都無足輕重。 突然,一道快如閃電的身影劃破天際,伴隨著一聲輕巧的「吉」聲。這是一個矮小但身形矯健的生物,名叫跳好。牠輕盈地穿越高空,目標直指那龐然大物的頭頂。跳好的身姿優雅自如
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
機器其實不是像人類這樣一的單字對應一個單字去翻譯, 而是使用「編碼器 Encoder」與「解碼器 Decoder」來做語言之間的翻譯。 其中編碼器的任務,是「閱讀 Read」與「處理 Process」完整的文本, 而解碼器的任務,則是「產生 Produced」翻譯過後的文本。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
機器其實不是像人類這樣一的單字對應一個單字去翻譯, 而是使用「編碼器 Encoder」與「解碼器 Decoder」來做語言之間的翻譯。 其中編碼器的任務,是「閱讀 Read」與「處理 Process」完整的文本, 而解碼器的任務,則是「產生 Produced」翻譯過後的文本。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習