我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
只要一切順利,沒有人會去考慮預訓練的 Tokenizer,這就像現實生活中一樣,我們可以多年駕駛一輛車而不去想引擎的問題。然後有一天,車子突然拋錨了,我們才開始試圖找出解釋原因。同樣的情況也發生在預訓練的 Tokenizer 上,有時候,結果並不是我們預期的,例如,在《獨立宣言》文本的上下文中,某些詞組不太合適,正如我們在下圖中看到的那樣:
在繼續之前,讓我們花點時間澄清一些要點,QC 指的是質量控制,在任何戰略性企業項目中,QC 是必須的,輸出的質量將決定關鍵項目的存續,如果該項目不是戰略性的,錯誤有時可以接受,而在戰略性項目中,即使是少量錯誤也可能引發風險管理審計的介入,以決定該項目是否應該繼續或中止。
從質量控制和風險管理的角度來看,對不相關的數據集進行 Tokenization (即,包含太多無用的詞語或缺少關鍵詞語) 會使 Embedding 算法混亂,從而產生「糟糕的結果」,這就是為什麼我在本章中鬆散地使用「Tokenization」這個詞,包括一些 Embedding 過程,因為它們相互影響。