我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- LIT 的視覺介面將幫助您找到模型處理錯誤的示例,分析類似的示例,觀察當您改變上下文時模型的行為,以及其他與 Transformer 模型相關的語言問題
- LIT 不會像 BertViz 那樣顯示注意力頭的活動,然而,分析出錯的原因並嘗試找到解決方案是值得的
- 您可以選擇使用 Uniform Manifold Approximation and Projection (UMAP) 可視化或主成分分析 (PCA) 投影表示,PCA 會在特定方向和幅度上進行更線性的投影,而 UMAP 則會將其投影分解成小簇,這兩種方法的選擇取決於您在分析模型輸出時希望深入到何種程度,您可以同時運行這兩種方法,從而獲得對同一模型和示例的不同視角
- 想像一下你在廚房裡,你的廚房是一個三維的笛卡爾坐標系,廚房裡的物體也都有特定的 x、y、z 坐標,你想要烹飪一個食譜,並在廚房的桌子上收集食材,你的廚房桌子是該食譜在廚房中的高層次表示,廚房桌子同樣使用笛卡爾坐標系,但是,當你提取廚房的主要特徵來在桌子上表示食譜時,你就在執行 PCA,這是因為你顯示了組成特定食譜的主要成分
- 同樣的表示方法可以應用於自然語言處理,例如,字典是一個詞語的列表,但是,那些具有共同意義的詞語構成了序列主成分的表示,LIT 中序列的 PCA 表示將有助於可視化 Transformer 的輸出,獲得 NLP PCA 表示的主要特徵是:
(a) 變異數:數據集中某個詞語的數值方差,例如,詞語的出現頻率及其意義的頻率
(b) 協方差:多個單字的變異數與資料集中另一個單字的變異數相關
(c) 特徵值和特徵向量:為了獲得笛卡爾系統中的表示,我們需要協方差的向量和幅度表示,特徵向量將提供向量的方向,特徵值將提供它們的幅度
(d) 匯出資料:最後一步是將行特徵向量乘以行數據,將特徵向量應用於原始資料集