我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。

各自代表意義為:
- Temperature:這個超參數應用於模型推論時的原始輸出 Logits,並在 Softmax 之前進行調整,較小的值,模型將產生更具決定性的輸出,然而,如果溫度值接近或超過 1,模型在 Softmax 後的信心將降低,輸出的隨機性會增加,並且預測會更具變化性,這一選擇代表了多樣性與預測質量之間的權衡
- Token Limit:這個超參數決定了模型將生成的最大序列長度,生成過程將在達到此限制或模型生成一個標誌序列結束的 Token 時停止,Token 限制獨立於其他超參數運作
- Top-K:Top-K 超參數將下一個標記的機率集合限制為 K 的值,Top-K 在 Softmax 之後應用,例如,如果將超參數設置為 40,則將選擇 Softmax 函數後的前 40 個最高機率
- Top-P 或核採樣會將機率按降序排序,然後,它將從最高開始累加機率,直到達到指定的 Top-P 超參數,例如 0.8,一旦機率被採樣,就隨機選擇其中一個作為下一個標記,這個標記隨後將添加到輸入標記序列中,以進行下一個標記的預測,與 Top-K 相比,這種方法傾向於生成更具多樣性和創造性的回應,Top-K 和 Top-P 可以單獨使用,也可以一起使用,如果它們一起使用,則首先應用 Top-K 以減少機率的數量,然後再對結果集應用 Top-P