我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
- 像 ViT 一樣,特徵提取器生成圖像的 Token
- 文本也像 ViT 一樣作為 Token 輸入
- 注意力層通過某種“交叉注意力”學習圖像 Token 與文本 Token 之間的關係
- 輸出同樣是原始 Logits,如同 ViT 一樣,我們將首先了解 CLIP 的基本架構,然後在程式碼中運行 CLIP
該模型是對比式的:圖像透過差異和相似性學習如何組合在一起,圖像和說明文字透過(文本與圖像的結合)預訓練彼此對應,經過預訓練後,CLIP 可以學習新任務,CLIP 具有可轉移性,因為它可以學習新的視覺概念,如同 GPT 模型,例如在視頻序列中的動作識別,說明文字為無限的應用場景鋪路。
ViT 將圖像分割為類似單詞的塊,CLIP 聯合訓練文本和圖像編碼器,對(說明文字,圖像)配對進行訓練,以最大化餘弦相似度,如下圖所示:
