2024-06-14|閱讀時間 ‧ 約 23 分鐘

淺聊AI

https://www.youtube.com/watch?v=wjZofJX0v4M

這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量

  • 影片中GPT3共儲存50257個英文單字, 每個單字是一個12288 x 1的向量

然後再藉由大量的模型訓練, 來決定每個英文單字的向量中的值。所謂的模型訓練, 就是餵進大量的已有文本, 藉由預定義的矩陣運算, 讓每個單字對應到的向量, 某種程度上能反應出語意;

  • 例如影片中舉例, 訓練之後, 我們把”king”對應的向量減去”queen”的向量, 其結果會非常接近”man”的向量減去”woman”的向量, 類似於把”性別”這樣的語義, 嵌入了12288維向量的其中一維。

而GPT之所以能產生文本, 則是利用maximum likelihood (ML, 最大似然估計)的數學工具; 例如前文是”once upon a”, 那根據這樣的輸入當中每個字的向量, 去推測下一個最可能的字是”time”, 然後重覆這樣的動作。

把資訊數字化然後用數學方法處理的概念, 基本上就是現代訊號處理/通訊的核心, AI/LLM突破的地方在於, 找到一個有效率的訓練方式, 在運算能量夠強大的情況下, 在有限時間用超大型矩陣來訓練/學習海量的文本; 先把近乎無限的運算量, 變成很大但是有限的運算量, 再用高度平行化的矩陣運算, 把這個很大的運算量攤給非常多的運算處理器, 這其實跟AI最早一戰成名的應用: 下圍棋, 有異曲同工之妙。

分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.