我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- Embedding Sublayer 基於隨機計算,並添加到複雜的 Positional Encoding 中
- 多頭注意力機制的隨機性使得很難確定為什麼以及如何在經過多層處理後,一個 Token 的得分脫穎而出
- 對原始輸出應用 Softmax 函數會模糊其過程
- Dropout 子層會抹去部分過程痕跡
- 深度學習中的正則化技術,如 ReLU 和 GELU,會阻礙對輸出的逆向工程
人工評估仍然是評估和尋找幫助提高透明度的方法的關鍵資源,解釋人工智慧的壓力越來越大,正在推動解釋工具向前發展,在專案層面你會發現很多好的例子和糟糕的結果,關注好的例子來了解 Transformer 如何透過語言學習。