對比學習實戰:用SimSiam模型挑戰FashionMNIST數據集

閱讀時間約 3 分鐘

深度學習領域中,對比學習(Contrastive Learning)近年來受到越來越多關注。它能夠在無標籤數據上學習到有效的特徵表示,為下游任務提供強大支持。本文將以FashionMNIST數據集為例,介紹如何實現一個基於SimSiam的對比學習模型,並與傳統監督學習方法進行對比。


首先來看FashionMNIST數據集。這是一個包含10類服飾圖像的數據集,每類6000張訓練圖像和1000張測試圖像,共70000張28x28的灰度圖。相比MNIST手寫數字,FashionMNIST更接近實際應用場景,難度也更高。


在實驗中,我們設置了兩種場景:

1. 使用全部60000張訓練圖像進行監督學習

2. 只使用1000張有標籤圖像進行監督學習


對於第一種場景,我們構建了一個簡單的CNN分類器,包含3層卷積和2層全連接層。經過10輪訓練,在測試集上達到了87%的準確率。這個結果還不錯,但仍有提升空間。


更具挑戰性的是第二種場景。當我們將訓練數據縮減到僅1000張時,即使增加到100輪訓練,準確率也只有61%左右,相比全量數據下降了26個百分點。這凸顯了在標籤稀缺情況下,傳統監督學習的局限性。


此時,對比學習就能發揮優勢。我們選擇了SimSiam這一簡潔有效的對比學習方法。相比需要大batch size的SimCLR,SimSiam採用了孿生網絡結構,無需負樣本,也不需要特別大的batch。


SimSiam的核心思想是:對同一圖像施加兩次不同的數據增強,得到兩個視圖。這兩個視圖分別通過編碼器和預測器,最終計算它們表示的餘弦相似度作為損失。通過最小化這個損失,模型學會將同一圖像的不同視圖映射到相近的特徵空間。


實現SimSiam時,我們沿用了之前CNN分類器的backbone,只是將最後的全連接分類層替換為一個預測MLP。訓練時使用了隨機數據增強,包括隨機裁剪、水平翻轉等。優化器選用SGD,學習率0.0001,momentum 0.9。


經過100輪訓練後,我們凍結backbone,只在1000張有標籤數據上微調最後一層分類器。測試結果顯示,準確率達到了76%,比直接監督學習提高了15個百分點。這充分證明了對比學習在特徵提取方面的優勢。


深入分析發現,SimSiam學到的特徵具有更好的判別性和泛化性。通過t-SNE可視化發現,不同類別的樣本在特徵空間中形成了清晰的聚類。這說明即使沒有標籤信息,模型也學會了將相似圖像映射到相近的特徵表示。


當然,SimSiam也存在一些局限性。例如,它對超參數比較敏感,特別是學習率和MLP結構的選擇。此外,由於缺少負樣本,模型可能會出現表示坍塌的問題。在實踐中,可以考慮引入動量編碼器(如MoCo v3)來提升穩定性。


總的來說,對比學習為解決標籤稀缺問題提供了一種有效途徑。通過無監督預訓練+少量標籤微調的範式,可以顯著提升模型性能。未來,隨著更多創新算法的出現,對比學習必將在計算機視覺、自然語言處理等多個領域發揮重要作用。


對於讀者而言,建議可以從以下幾個方面深入探索對比學習:

1. 嘗試其他對比學習算法,如SimCLR、MoCo等,比較它們的優劣

2. 在更複雜的數據集上驗證對比學習的效果,如ImageNet

3. 將對比學習與其他自監督方法(如掩碼自編碼器)結合

4. 探索對比學習在下游任務如目標檢測、語義分割等方面的應用


對比學習仍是一個充滿活力的研究方向,相信未來會有更多突破性進展。讀者們不妨多加關注,並在實際項目中嘗試應用這一強大工具。

0會員
18Content count
留言0
查看全部
發表第一個留言支持創作者!
小罗LA的沙龍 的其他內容
在大語言模型(LLM)應用中,檢索增強生成(RAG)技術已成為提升回答品質的關鍵。然而,簡單的RAG往往無法滿足複雜場景的需求。本文將深入剖析4種進階RAG演算法,並結合LLM twin系統的實際案例,探討如何優化檢索效果。 一、查詢擴展:擴大語義覆蓋範圍 傳統RAG僅使用單一向量查詢,容易
在人工智能和機器學習領域,有一類演算法借鑒了生物進化的智慧,它就是遺傳演算法。這種演算法通過模擬自然選擇和遺傳的過程,能夠在龐大的解空間中找到接近最優的解決方案。今天,我們就來深入探討遺傳演算法的原理、應用場景,以及如何用Python實現一個簡單的遺傳演算法。 遺傳演算法的核心思想來自於達爾文
在快速發展的人工智能(AI)時代,我們對AI的能力仍存在眾多誤解。本文分析人工智能與人類智慧的三個關鍵差異,包括情感的真實性、理解的體驗與行為以及機器的自信與人類的猶豫。透過這些差異,我們可以更深入地理解AI的本質,並在未來的科技環境中有效地與AI進行合作。
隨著開源 AI 的發展,新研究指出混合代理模型(MoA)在多項基準測試中已經超越了閉源 AI 巨頭如 GPT-4。MoA 通過協作多個開源大語言模型(LLM)實現性能優化,具有成本效益及創新潛力。
對AI充滿興趣但沒有計算機科學背景?這篇文章提供了一個為期50天的學習計畫,幫助你從零基礎成長為AI/ML專家。透過實際的學習步驟和推薦資源,無需專業學位也能掌握AI,關鍵在於持續實踐和自主學習。這是一段充滿挑戰與成長的學習之旅,伴隨著瞭解其原理與應用。祝你學習愉快!
在這篇文章中,我們將介紹七款功能強大的Mac應用程式,幫助用戶提高工作效率。從隨手筆記的SideNotes到專業錄影的Screen Studio,這些工具能夠滿足不同需求,讓你的工作流程更加順暢。無論是遠程桌面、筆記管理還是文件壓縮,每款應用都有其獨特的優勢,且使用簡便,適合各種用戶。
在大語言模型(LLM)應用中,檢索增強生成(RAG)技術已成為提升回答品質的關鍵。然而,簡單的RAG往往無法滿足複雜場景的需求。本文將深入剖析4種進階RAG演算法,並結合LLM twin系統的實際案例,探討如何優化檢索效果。 一、查詢擴展:擴大語義覆蓋範圍 傳統RAG僅使用單一向量查詢,容易
在人工智能和機器學習領域,有一類演算法借鑒了生物進化的智慧,它就是遺傳演算法。這種演算法通過模擬自然選擇和遺傳的過程,能夠在龐大的解空間中找到接近最優的解決方案。今天,我們就來深入探討遺傳演算法的原理、應用場景,以及如何用Python實現一個簡單的遺傳演算法。 遺傳演算法的核心思想來自於達爾文
在快速發展的人工智能(AI)時代,我們對AI的能力仍存在眾多誤解。本文分析人工智能與人類智慧的三個關鍵差異,包括情感的真實性、理解的體驗與行為以及機器的自信與人類的猶豫。透過這些差異,我們可以更深入地理解AI的本質,並在未來的科技環境中有效地與AI進行合作。
隨著開源 AI 的發展,新研究指出混合代理模型(MoA)在多項基準測試中已經超越了閉源 AI 巨頭如 GPT-4。MoA 通過協作多個開源大語言模型(LLM)實現性能優化,具有成本效益及創新潛力。
對AI充滿興趣但沒有計算機科學背景?這篇文章提供了一個為期50天的學習計畫,幫助你從零基礎成長為AI/ML專家。透過實際的學習步驟和推薦資源,無需專業學位也能掌握AI,關鍵在於持續實踐和自主學習。這是一段充滿挑戰與成長的學習之旅,伴隨著瞭解其原理與應用。祝你學習愉快!
在這篇文章中,我們將介紹七款功能強大的Mac應用程式,幫助用戶提高工作效率。從隨手筆記的SideNotes到專業錄影的Screen Studio,這些工具能夠滿足不同需求,讓你的工作流程更加順暢。無論是遠程桌面、筆記管理還是文件壓縮,每款應用都有其獨特的優勢,且使用簡便,適合各種用戶。
你可能也想看
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f
Thumbnail
重點摘要: 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期,但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱,經濟復甦的時點或是 1Q25 季底附近
Thumbnail
近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎? 新版式整體視覺上「更加凸顯圖片」,為了搭配這次的更新,我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務,還有機會獲得富士即可拍,讓你的美好回憶都可以用即可拍珍藏!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 129 中說,Bidirectional Encoder Representations from Transformers (BER
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 在某些情況下,別人提供的 Pretrained Transformer Model 效果不盡人意,可能會想要自己做 Pretrained Model,但是這會耗費大量運
Thumbnail
延續上一篇訓練GAM模型,這次我們讓神經網路更多層更複雜一點,來看訓練生成的圖片是否效果會更好。 [深度學習][Python]訓練MLP的GAN模型來生成圖片_訓練篇 資料集分割處理的部分在延續上篇文章,從第五點開始後修改即可,前面都一樣 訓練過程,比較圖 是不是CNN的效果比MLP還要好,
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 繼 AI說書 - 從0開始 - 82 與 xxx ,我們談論了衡量 AI 模型的方式,那當你訓練的模型比 State-of-the-Art 還要好並想要進行宣稱時,需要
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Transformer 可以透過繼承預訓練模型 (Pretrained Model) 來微調 (Fine-Tune) 以執行下游任務。 Pretrained Mo
Thumbnail
前言 在閱讀《強化式學習:打造最強 AlphaZero 通用演算法》時,文中介紹了殘差網路,並推薦了兩篇論文;因為在看了書後,對殘差網路的概念還是不很清楚,於是決定用ChatGPT翻譯這兩篇論文來增強理解,以下正文是第一篇論文:Deep Residual Learning for Image Re
機器學習領域的專業人士可以從這篇文章中獲得寶貴的見解。 追求更大的數據集和更強大的模型一直是提升性能的核心策略。 以下是我在機器學習領域工作7年後的三個重大體悟。 ▋體悟1 - 大數據的重要性 自2009年ImageNet問世以來, 數據集的規模和質量對機器學習的影響越
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 20中,闡述GPT模型的Supervised and Unsupervised觀點,接著一樣引述書籍:Transformers f