AI說書 - 從0開始 - 498 | CLIP 前言與架構

更新於 2025/08/17發佈於 2025/08/17閱讀時間約 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Contrastive Language-Image Pre-Training（CLIP）是一種多模態 Transformer，可用於圖像分類，CLIP 的流程可總結如下：

像 ViT 一樣，特徵提取器生成圖像的 Token
文本也像 ViT 一樣作為 Token 輸入
注意力層通過某種“交叉注意力”學習圖像 Token 與文本 Token 之間的關係
輸出同樣是原始 Logits，如同 ViT 一樣，我們將首先了解 CLIP 的基本架構，然後在程式碼中運行 CLIP

該模型是對比式的：圖像透過差異和相似性學習如何組合在一起，圖像和說明文字透過（文本與圖像的結合）預訓練彼此對應，經過預訓練後，CLIP 可以學習新任務，CLIP 具有可轉移性，因為它可以學習新的視覺概念，如同 GPT 模型，例如在視頻序列中的動作識別，說明文字為無限的應用場景鋪路。

ViT 將圖像分割為類似單詞的塊，CLIP 聯合訓練文本和圖像編碼器，對（說明文字，圖像）配對進行訓練，以最大化餘弦相似度，如下圖所示：

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十六章

留言

留言分享你的想法！

Learn AI 不 BI

237會員

794內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/08/15

AI說書 - 從0開始 - 497 | Vision Transformer 之輸出 Softmax 檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們可以對輸出的 Logit 應用 Temperature、Softmax、Top-K 與 Top-P，以下為應用 Softmax： probs = torch.nn

2025/08/15

AI說書 - 從0開始 - 497 | Vision Transformer 之輸出 Softmax 檢視

2025/08/14

AI說書 - 從0開始 - 496 | Vision Transformer 之輸出標籤檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們可以窺探 ViT 模型的輸出標籤形狀： print(outputs.logits.shape) 結果為：也可以看看模型原本配置幾個標籤： mode

2025/08/14

AI說書 - 從0開始 - 496 | Vision Transformer 之輸出標籤檢視

2025/08/13

AI說書 - 從0開始 - 495 | Vision Transformer 之模型參數檢視

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。以下程式碼顯示 ViT 模型： model 結果為：

2025/08/13

AI說書 - 從0開始 - 495 | Vision Transformer 之模型參數檢視

#AI 的其他內容

[應用] iOS 26 要來啦！｜Beta 版使用期間速記

嫚嫚的顯化療癒之道

NotebookLM完整教學：從零到一，讓你從新手變高手

TN科技筆記(TechNotes)的沙龍

Google Gemma 3 270M ：Google 為何反其道而行，推出一款「迷你」AI 模型？

你可能也想看

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

常常被朋友問「哪裡買的？」嗎？透過蝦皮分潤計畫，把日常購物的分享多加一個步驟，就能轉換成現金回饋。門檻低、申請簡單，特別適合學生與上班族，讓零碎時間也能創造小確幸。

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

黛•Adele的生活隨筆

斜槓生活日常｜不受時間空間限制，分享喜歡的產品也能有被動收入｜蝦皮分潤計畫

#蝦皮分潤計畫#蝦皮聯盟行銷#蝦皮副業

2025/09/06

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11