https://www.youtube.com/watch?v=wjZofJX0v4M
這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量
然後再藉由大量的模型訓練, 來決定每個英文單字的向量中的值。所謂的模型訓練, 就是餵進大量的已有文本, 藉由預定義的矩陣運算, 讓每個單字對應到的向量, 某種程度上能反應出語意;
而GPT之所以能產生文本, 則是利用maximum likelihood (ML, 最大似然估計)的數學工具; 例如前文是”once upon a”, 那根據這樣的輸入當中每個字的向量, 去推測下一個最可能的字是”time”, 然後重覆這樣的動作。
把資訊數字化然後用數學方法處理的概念, 基本上就是現代訊號處理/通訊的核心, AI/LLM突破的地方在於, 找到一個有效率的訓練方式, 在運算能量夠強大的情況下, 在有限時間用超大型矩陣來訓練/學習海量的文本; 先把近乎無限的運算量, 變成很大但是有限的運算量, 再用高度平行化的矩陣運算, 把這個很大的運算量攤給非常多的運算處理器, 這其實跟AI最早一戰成名的應用: 下圍棋, 有異曲同工之妙。