AI說書 - 從0開始 - 406 | PaLM 特色

2025/05/09 更新2025/05/09 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Google AI 的 Pathways Language Model（PaLM）擁有 5400 億個參數，並且是在稍早探討的 Pathways ML 系統上訓練的，PaLM 是在 6144 個 TPU v4 晶片上進行訓練的，Google 改進了 LLM 訓練過程中的許多方面，以下介紹其關鍵進展：

PaLM 共享了輸入和輸出嵌入矩陣，節省了大量記憶體，通常在一個 Transformer 模型中，嵌入層用來表示輸入和輸出的 Token，這意味著我們會有一個大小為 [x, d] 的輸入嵌入矩陣，x 代表輸入，d 代表向量的維度，同時也會有一個大小為 [x, d] 的輸出嵌入矩陣，總大小為 2 倍的 [x, d]，通過共享嵌入矩陣，能節省記憶體
在神經網路中，Biases 是額外的參數，添加到每一層的輸出中，幫助模型學習輸入和輸出資料之間更複雜的關係，然而，這通常會導致過擬合和不穩定性，在 PaLM 的情況下，結果證明了這項決策的有效性
Rotary Positional Embedding (RoPE) 結合了絕對與相對的嵌入，並將一個學習到的旋轉矩陣應用於操作中，一個簡單的概念例子是「Dog is a noun」，「Dog」在這個句子中的絕對位置是 1，「Dog」的相對位置仍然是 1，如果我們從動詞「is」開始分析序列，它的相對位置就是 -1，RoPE 通過旋轉操作矩陣編碼絕對位置資訊，並在自注意力子層中考慮到相對位置依賴性
Switched Gated Linear Unit (SwiGLU) 有兩個輸入，x 和 y，輸出為 x * sigmoid(y)，其中 sigmoid 是 sigmoid 函數，sigmoid(y) = 1 / (1 + exp(-y))，這有效地讓網路學會「開啟或關閉」（或調節）特定神經元的激活，在 PaLM 的情況下，經驗評估顯示這個過程改善了模型的質量，然而，這可能不適用於其他架構。Google AI 研究團隊還優化了許多其他訓練過程和架構的方面，更多詳情可參閱《PaLM: Scaling Language Modeling with Pathways》，作者：Chowdhery 等人 (2022)：https://arxiv.org/pdf/2204.02311.pdf。

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十四章

留言

留言分享你的想法！

Learn AI 不 BI

240會員

887內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/05/08

AI說書 - 從0開始 - 405 | PaLM 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Google AI 的 Pathways Language Model（PaLM）擁有 5400 億個參數，並且是在稍早探討的 Pathways ML 系統上訓練的，P

2025/05/08

AI說書 - 從0開始 - 405 | PaLM 特色

2025/05/07

AI說書 - 從0開始 - 404 | Pathways 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 Pathways 的創新可以用下圖表示：當中說明為：客戶端將程序提交給資源管理器並控制這些程序的執行，當客戶端將程序提交給資源管理器時，資源管理器會為客戶端分配

2025/05/07

AI說書 - 從0開始 - 404 | Pathways 特色

2025/05/06

AI說書 - 從0開始 - 403 | Pathways 特色

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 PaLM 和 PaLM2 是基於 Pathways 技術構建的，Pathways 是 Google 的一項技術，通過數據並行、模型並行和執行級別並行來提高訓練大型語言模

2025/05/06

AI說書 - 從0開始 - 403 | Pathways 特色

#AI 的其他內容

《鴻海已經達標5月預期的估值，而2026年還有多少本益比想像價值?》

普普文創

【踏青漫步】剪刀石山 258公尺

林位青的沙龍

Google Stitch 生成 UI 介面設計，加速產品原型開發與協作

你可能也想看

夢夢 🍰 甜點魔法

全家限定！療癒系馬來貘雪糕，創意吃法大公開｜豆漿燕麥碗、藍莓果昔

還在煩惱平凡日常該如何增添一點小驚喜嗎？全家便利商店這次聯手超萌的馬來貘，推出黑白配色的馬來貘雪糕，不僅外觀吸睛，層次豐富的雙層口味更是讓人一口接一口！本文將帶你探索馬來貘雪糕的多種創意吃法，從簡單的豆漿燕麥碗、藍莓果昔，到大人系的奇亞籽布丁下午茶，讓可愛的馬來貘陪你度過每一餐，增添生活中的小確幸！

#懶人料理#食譜#健康甜點

2025/10/15