常見圖像分類資料集:
- ImageNet: 這是一個非常龐大的資料集,包含超過 1400 萬張帶有手工標註的圖像,這些圖像被分為超過 2 萬個類別。它是許多電腦視覺任務的基準資料集。
- CIFAR-10: 包含 60,000 張 32x32 的彩色圖像,分為 10 個不同的類別,每個類別有 6,000 張圖像。
- CIFAR-100: 類似於 CIFAR-10,但包含 100 個類別,每個類別有 600 張圖像。
- MNIST: 一個包含 70,000 張手寫數字(0-9)灰度圖像的資料集,常被用於入門級的電腦視覺任務。
- Fashion-MNIST: 一個類似於 MNIST 的時裝產品資料集,包含 10 個類別的服裝圖像。
- Caltech-101 & Caltech-256: 分別包含 101 和 256 個類別的物體圖像。
常見目標檢測和分割資料集:
- MS COCO (Microsoft Common Objects in Context): 一個非常流行的資料集,用於目標檢測、分割和圖像描述等任務。它包含超過 20 萬張圖像,標註了超過 80 個物體類別。
- PASCAL VOC (Visual Object Classes): 一個用於目標檢測和圖像分割的資料集,包含 20 個物體類別。
- Open Images Dataset: Google 開放的一個大型資料集,包含超過 900 萬張圖像,並提供了物體邊界框、分割掩模和視覺關係的標註。
- Cityscapes: 一個專注於城市環境語義分析的資料集,包含來自城市街道場景的圖像,並提供了像素級別的語義標註。
- CelebA (CelebFaces Attributes Dataset): 一個包含超過 20 萬張名人圖像的大型人臉屬性資料集,每張圖像都標註了 40 個不同的面部屬性。
- LFW (Labeled Faces in the Wild): 包含超過 13,000 張人臉圖像,用於人臉識別任務。
- IMDB-Wiki: 一個包含超過 50 萬張人臉圖像的大型公開資料集,並提供了性別、年齡和姓名等標註。
其他常見資料集:
- Kaggle Datasets: Kaggle 上有大量的電腦視覺相關資料集,涵蓋各種任務和領域。
- LabelMe Dataset: 一個基於開源標註工具 LabelMe 構建的資料集,包含帶有輪廓和文本標註的圖像。
- Kinetics-700: 一個大型影片資料集,包含 700 種不同的人類動作類別,可用於影片動作識別。
- Places Dataset: 包含超過 250 萬張圖像,涵蓋 205 個不同的場景類別,適用於場景識別任務。