我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
DALL-E 與 CLIP 一樣,是一種多模態模型,CLIP 處理文本-圖像對,而 DALL-E 對文本和圖像 Token 的處理方式有所不同,DALL-E 1 的輸入為 1280 個 Token 的單一文本和圖像流,其中 256 個 Token 用於文本,1024 個 Token 用於圖像,DALL-E 的名字來源於薩爾瓦多·達利和皮克斯的《瓦力》,DALL-E 的用途是輸入文本提示並生成圖像。DALL-E 必須先學會如何通過文本生成圖像,此 Transformer 使用包含文本-圖像對的數據集,從文本描述生成圖像,我們將探討 DALL-E 的基本架構,以了解模型如何運作: