我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 階段 1:使用 Discrete Variational Autoencoder (DVAE),該算法的目標是處理 256 x 256 = 65536 個 RGB 圖像值的輸入,並輸出一個小得多的 32 x 32 = 1024 網格圖像 Token,每個 Token 可以有 8192 種(經驗選擇)可能的值
- 階段 2:將最多 256 個 BPE 編碼的文本 Token 與 32 x 32 = 1024 的圖像 Token 串聯,該模型的目標是通過 Transformer 在文本和圖像 Token 的聯合分佈上進行訓練,Transformer 的注意力機制使模型在生成輸出時能夠關注圖像和文本輸入的不同部分,在這種情況下,Transformer 特別適合處理長圖像和文本數據序列