我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
在接下來的程式碼中,使用 PyTorch 的 unfold 函數從大小為 224 x 224 的輸入圖像中創建區塊,此函數從輸入張量(在此情況下是圖像)中提取滑動的區域塊,可以將其視為將圖像切分成小的方形區塊,Patch_Size 參數定義了這些區塊的大小。
接著,每個區塊被展平成一維向量,所有這些向量形成一個二維輸入矩陣,可以提供給Transformer 模型,該矩陣的每一 Row 對應於單個區塊的向量,區塊數量為 224 / 16 * 224 / 16 = 196 個區塊,這些區塊構成了 Transformer 模型的詞彙,就如同文字模型的字典。





















