GPT 的 T

更新於 2024/11/05閱讀時間約 4 分鐘

GPT的核心基礎是Transformer架構,它依賴於「自注意力機制」和「多層神經網絡」的組合。以下是深入的機制講解,包括自注意力、位置編碼、層級結構、訓練過程和生成過程的細節。


1. 自注意力機制(Self-Attention Mechanism)


自注意力機制是GPT生成高質量語言的關鍵。這一機制使得模型能夠在處理每個單詞時,不僅考慮當前單詞,還會參考句子中其他單詞的影響。


基本原理:在處理一個句子時,模型為每個單詞分配一個「注意力權重」,表示這個單詞在句子中的相對重要性。自注意力機制能夠自適應地決定句子中每個單詞之間的關聯,特別是在長距離依賴情況下(如「我昨天和朋友去吃飯,食物非常好吃。」中的「食物」與「好吃」)。


具體步驟:


1. Query、Key、Value的計算:每個單詞向量會通過線性變換生成三個向量,稱為Query、Key和Value向量。



2. 注意力權重的計算:每個Query和句子中所有Key向量計算相似度(通常使用內積),得到一組注意力權重,表示每個單詞對當前單詞的影響力。



3. 加權求和:根據注意力權重對每個單詞的Value向量進行加權求和,得到當前單詞的最終表示。





這種機制讓GPT模型可以靈活地處理不同長度的句子,並保持對關鍵詞的高度敏感性。


2. 多頭自注意力機制(Multi-Head Self-Attention)


在單一自注意力機制上,Transformer採用多頭自注意力來增加模型表達能力。


多頭的作用:每個頭獨立地進行一次自注意力計算,但使用不同的權重矩陣,因此每個頭會捕捉不同的語義關係,這樣可以同時捕捉長距離和短距離依賴。


合併結果:每個頭的輸出被拼接在一起,然後通過一層線性變換,融合不同頭的信息,形成每個單詞的最終表示。



3. 位置編碼(Positional Encoding)


由於Transformer模型不包含卷積或遞歸結構,因此無法直接感知序列順序。為了解決這個問題,GPT使用位置編碼,將位置信息添加到每個單詞的表示中。


正弦和餘弦位置編碼:GPT通常採用正弦和餘弦函數來生成位置編碼。每個單詞的位置編碼根據其在句子中的位置而不同,這樣模型可以根據這些位置編碼來識別單詞的順序。


學習到的位置編碼:在一些改進的版本中,位置編碼被設計為可訓練的向量,模型會在訓練過程中自動學習序列位置。



4. 殘差連接和層歸一化(Residual Connections and Layer Normalization)


Transformer的每一層(包括多頭自注意力層和前饋神經網絡層)之後都會有一個殘差連接和層歸一化操作。


殘差連接:將輸入直接加到輸出上,避免深層網絡的梯度消失問題,提升訓練穩定性。


層歸一化:對輸出進行標準化,使得每層的輸出均值為0,方差為1,幫助模型更好地收斂。



5. 前饋神經網絡層(Feed-Forward Neural Network Layer)


在每個自注意力層之後,Transformer會應用一個獨立的前饋神經網絡。這一層通常由兩個線性層組成,中間包含一個非線性激活函數(如ReLU)。


作用:前饋層可以進一步提取自注意力層輸出的特徵,並將它們轉換為更高層次的表示。


運行方式:前饋層在每個位置上單獨運行,與序列中的其他單詞無關。



6. 訓練過程


GPT的訓練過程基於「無監督學習」,即在大量文本數據上進行自回歸訓練,模型通過學習預測下一個單詞來學習語言的模式。


目標函數:GPT的損失函數通常是交叉熵損失,旨在最大化正確單詞出現在指定位置的概率。


梯度下降:在訓練過程中,模型使用反向傳播和梯度下降來更新權重,使預測誤差逐步減小。



7. 生成過程


當GPT生成文本時,它會逐步生成每個單詞,直到達到預設長度或生成結束標記。


自回歸生成:GPT的生成過程是自回歸的,即每次生成一個單詞,然後將生成的單詞作為輸入,進一步生成下一個單詞。


溫度和Top-k/Top-p抽樣:為了控制生成質量,GPT可以使用「溫度」參數來調整隨機性,或採用Top-k和Top-p抽樣方法,限制模型的候選詞彙,使得生成結果既符合上下文,又具有一定的創造性。


終止條件:GPT會根據預設條件(例如生成固定字數或生成結束標記)來停止生成。



總結


GPT透過多頭自注意力、自回歸生成、位置編碼、殘差連接等技術,極大地提升了模型的語言理解和生成能力。這些技術相輔相成,使得GPT能夠生成語法正確、內容一致的長文本。正是這種技術上的創新,使GPT在自然語言處理領域取得了突破性進展。



avatar-img
6會員
340內容數
萬物皆空.. 需要的 只是一個乾淨明亮的地方
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
一直都放在房間 的其他內容
在那個未來的世界裡,城市被分成了兩個極端的領域:一個是富人所在的高層天際,另一個則是窮人被困的灰色底層。富人們的生活彷彿在夢境中。他們居住在高聳入雲的摩天大樓上層,那裡擁有一切便利和奢華。每一棟大樓頂層都有懸浮泳池和私人花園,花園裡的植物是為了抵禦污染而特別培育的,提供了一片純淨、鮮明的綠意。他們不
大師是一個極有名氣的老拳師,鬍子灰白,雙眼卻如鷹隼般鋒利。他曾在全國賽場上縱橫無敵,但現在,他在一間破舊的拳館裡訓練著一群滿腔熱血的年輕人。他們年輕,充滿了對勝利的渴望,卻也天真,以為僅靠熱情就能打倒對手。 「年輕人要精盡,」大師站在拳館中央,冷冷地說道。這句話,他說得簡潔有力,不帶絲毫遲疑。
在遙遠的未來,科技進步使人類擁有了令人難以置信的力量。這時代的地球上,每個人都擁有一種稱為「特質」的天賦,這種特質可以增強身體能力、操控元素,甚至穿越時間。然而,特質的強度和稀有度卻隨人而異,且只有極少數人才擁有無可比擬的強大特質。他們被稱為「不可多得貨色」,每一位都擁有獨特的標誌性力量,並在社會中
元大台灣50正2(00631L)自2014年11月成立以來,曾經歷多次市場波動。根據歷史數據,該ETF在2015年4月達到當時的高點,隨後進入下跌趨勢,直到2017年5月才重新回到並超越該高點。因此,投資者在2015年4月高點買入後,需等待約兩年(約24個月)才能解套。 需要注意的是,槓桿型E
過往許多創業大佬的例子在今天已經變成激烈競爭的市場。但在這些創業者當時起步時,這些領域並非像現在這樣擁擠。彼得提爾強調的「秘密」其實指的是當一個領域在早期未被普遍看好或忽視時,某些人看到了其中的潛力。這種能力並不一定要求普通人馬上能發現重大「秘密」,而是更鼓勵我們去找尋那些身邊未被利用的小機會,並在
城市陷入死寂,哥吉拉佇立在廢墟中,如同一座無法撼動的神明。牠的目光冷酷,注視著荒蕪的地平線,從不動搖,仿佛一切在牠面前都無足輕重。 突然,一道快如閃電的身影劃破天際,伴隨著一聲輕巧的「吉」聲。這是一個矮小但身形矯健的生物,名叫跳好。牠輕盈地穿越高空,目標直指那龐然大物的頭頂。跳好的身姿優雅自如
在那個未來的世界裡,城市被分成了兩個極端的領域:一個是富人所在的高層天際,另一個則是窮人被困的灰色底層。富人們的生活彷彿在夢境中。他們居住在高聳入雲的摩天大樓上層,那裡擁有一切便利和奢華。每一棟大樓頂層都有懸浮泳池和私人花園,花園裡的植物是為了抵禦污染而特別培育的,提供了一片純淨、鮮明的綠意。他們不
大師是一個極有名氣的老拳師,鬍子灰白,雙眼卻如鷹隼般鋒利。他曾在全國賽場上縱橫無敵,但現在,他在一間破舊的拳館裡訓練著一群滿腔熱血的年輕人。他們年輕,充滿了對勝利的渴望,卻也天真,以為僅靠熱情就能打倒對手。 「年輕人要精盡,」大師站在拳館中央,冷冷地說道。這句話,他說得簡潔有力,不帶絲毫遲疑。
在遙遠的未來,科技進步使人類擁有了令人難以置信的力量。這時代的地球上,每個人都擁有一種稱為「特質」的天賦,這種特質可以增強身體能力、操控元素,甚至穿越時間。然而,特質的強度和稀有度卻隨人而異,且只有極少數人才擁有無可比擬的強大特質。他們被稱為「不可多得貨色」,每一位都擁有獨特的標誌性力量,並在社會中
元大台灣50正2(00631L)自2014年11月成立以來,曾經歷多次市場波動。根據歷史數據,該ETF在2015年4月達到當時的高點,隨後進入下跌趨勢,直到2017年5月才重新回到並超越該高點。因此,投資者在2015年4月高點買入後,需等待約兩年(約24個月)才能解套。 需要注意的是,槓桿型E
過往許多創業大佬的例子在今天已經變成激烈競爭的市場。但在這些創業者當時起步時,這些領域並非像現在這樣擁擠。彼得提爾強調的「秘密」其實指的是當一個領域在早期未被普遍看好或忽視時,某些人看到了其中的潛力。這種能力並不一定要求普通人馬上能發現重大「秘密」,而是更鼓勵我們去找尋那些身邊未被利用的小機會,並在
城市陷入死寂,哥吉拉佇立在廢墟中,如同一座無法撼動的神明。牠的目光冷酷,注視著荒蕪的地平線,從不動搖,仿佛一切在牠面前都無足輕重。 突然,一道快如閃電的身影劃破天際,伴隨著一聲輕巧的「吉」聲。這是一個矮小但身形矯健的生物,名叫跳好。牠輕盈地穿越高空,目標直指那龐然大物的頭頂。跳好的身姿優雅自如
你可能也想看
Google News 追蹤
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
機器其實不是像人類這樣一的單字對應一個單字去翻譯, 而是使用「編碼器 Encoder」與「解碼器 Decoder」來做語言之間的翻譯。 其中編碼器的任務,是「閱讀 Read」與「處理 Process」完整的文本, 而解碼器的任務,則是「產生 Produced」翻譯過後的文本。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習
Thumbnail
*合作聲明與警語: 本文係由國泰世華銀行邀稿。 證券服務係由國泰世華銀行辦理共同行銷證券經紀開戶業務,定期定額(股)服務由國泰綜合證券提供。   剛出社會的時候,很常在各種 Podcast 或 YouTube 甚至是在朋友間聊天,都會聽到各種市場動態、理財話題,像是:聯準會降息或是近期哪些科
Thumbnail
徵的就是你 🫵 超ㄅㄧㄤˋ 獎品搭配超瞎趴的四大主題,等你踹共啦!還有機會獲得經典的「偉士牌樂高」喔!馬上來參加本次的活動吧!
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Bidirectional Encoder Representations from Transformers (BERT) 只有 Encoder Layer,沒有 D
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在 AI說書 - 從0開始 - 114 建立了 Transformer 模型。 現在我們來載入預訓練權重,預訓練的權重包含 Transformer 的智慧
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 下游任務是一個 Fine-Tuned 的 Transformer 任務,它從預先訓練的 Transformer 模型繼承模型和參數,故,下游任務是運行微調任務的預訓練模
機器其實不是像人類這樣一的單字對應一個單字去翻譯, 而是使用「編碼器 Encoder」與「解碼器 Decoder」來做語言之間的翻譯。 其中編碼器的任務,是「閱讀 Read」與「處理 Process」完整的文本, 而解碼器的任務,則是「產生 Produced」翻譯過後的文本。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformers for Natural Language Processing and Computer Vision, 2024 這本書中講 Attenti
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 中的 Attention 機制是 'Word-to-Word' 操作,抑或是 'Token-to-Token' 操作,白話來講就是:「對於句子中
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 既然要談論 Transformer 的 Attention 機制,我們必須要談論以下主題: Transformer 架構 自注意力機制 編碼與解碼 Embedd
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧我們在AI說書 - 從0開始 - 4中說Transformer的精髓就是考慮「字與字之間的配對關係」,我們稱其為Attention Layer,再搭配我們在機器學習