梯度消失 (Vanishing Gradient)

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。回顧 AI說書 - 從0開始 - 129 中說，Bidirectional Encoder Representations from Transformers (BER

2024/08/13

AI說書 - 從0開始 - 130 | Masked Language Modeling 訓練

2024/08/13

【邁向圖神經網絡GNN】Part4: 實作圖神經網路訊息傳遞機制

透過這篇文章，我們將瞭解如何使用PyTorch實作圖神經網絡中的訊息傳遞機制，從定義消息傳遞的類別到實作消息傳遞過程。我們也探討了各種不同的消息傳遞機制，並通過對單次和多次傳遞過程的結果，可以看到節點特徵如何逐步傳遞與更新。

#pytorch#GNN#messagepassing

2024/07/24

【邁向圖神經網絡GNN】Part4: 實作圖神經網路訊息傳遞機制

#pytorch#GNN#messagepassing

2024/07/24

【邁向圖神經網絡GNN】Part3: 圖神經網絡的核心-訊息傳遞機制

本篇文章專注於消息傳遞（message passing）在圖神經網絡（GNN）中的應用，並以簡單的例子解釋了消息傳遞的過程和機制。

#GNN#Graph#messagepassin

2024/07/24

【邁向圖神經網絡GNN】Part3: 圖神經網絡的核心-訊息傳遞機制

本篇文章專注於消息傳遞（message passing）在圖神經網絡（GNN）中的應用，並以簡單的例子解釋了消息傳遞的過程和機制。

#GNN#Graph#messagepassin

2024/07/24

AI說書 - 從0開始 - 85

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。新模型和 Human Baselines 排名將不斷變化，Human Baselines 的位置自從基礎模型出現以來，它就不再具有多大意義了，這些排名只是表明經典 NL

2024/07/12

AI說書 - 從0開始 - 85

筆記-深度學習論文閱讀：Deep Residual Learning for Image Recognition

2024/07/12

柴郡貓姍蒂的沙龍

前言在閱讀《強化式學習：打造最強 AlphaZero 通用演算法》時，文中介紹了殘差網路，並推薦了兩篇論文；因為在看了書後，對殘差網路的概念還是不很清楚，於是決定用ChatGPT翻譯這兩篇論文來增強理解，以下正文是第一篇論文：Deep Residual Learning for Image Re

#深度學習#人工智慧#殘差網路

2024/07/07

柴郡貓姍蒂的沙龍

筆記-深度學習論文閱讀：Deep Residual Learning for Image Recognition

#深度學習#人工智慧#殘差網路

2024/07/07

AI說書 - 從0開始 - 68

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。仔細看 AI說書 - 從0開始 - 66 中，Decoder 的 Multi-Head Attention 框框，會發現有一條線空接，其實它是有意義的，之所以空接，是因

2024/07/01

AI說書 - 從0開始 - 68

2024/07/01

#AI#ai#PositionalEncoding

AI說書 - 從0開始 - 65

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著來談 Transformer 架構中的 Feedforward Network (FFN)：其為全連接的神經網路架構回顧 AI說書 - 從0開始 - 64

2024/06/29

#AI#ai#PositionalEncoding

AI說書 - 從0開始 - 65

2024/06/29

AI說書 - 從0開始 - 42

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。在AI說書 - 從0開始 - 41中，我們提及 Transformer 的 Encoder 架構如下圖所示，同時我們羅列幾個要點於圖示右邊：原始 Transform

2024/06/23

AI說書 - 從0開始 - 42

2024/06/23

AI說書 - 從0開始 - 39

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。首先先展示 Transformer 的架構圖：可以看到架構中不再出現 RNN 、 LSTM 、 CNN 等物件，因為 Recurrence 已被摒棄。

2024/06/22

AI說書 - 從0開始 - 39