我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
我們將逐步探討以下主題:
- 用於圖像分類的 ViT(Vision Transformer)
- 用於圖像分類的 Swin Transformer
- 用於圖像分類的 BEiT(Bidirectional Encoder Representation from Image Transformers)
- 用於圖像分類的 ConvNext
- 用於圖像分類的 ResNet
每個小節包含以下內容:
- 模型描述:這些描述由 Google AI 提供,並進行了修改以適合教學目的
- 模型配置:通過 Python 函數生成的模型配置細節
- 驗證分類:測試模型對挑戰性汽車圖像的分類能力
內容將展示這些模型的局限性,以及如何向最終用戶提供清晰透明的訊息。


























