CNN實作Kaggle貓狗影像辨識(Pytorch)

2024/01/05 更新2020/04/23 發佈閱讀 27 分鐘

最近剛好修了Pytorch相關的課，在Kaggle上也丟了個比賽，想說就來分享一下Pytorch的入門實戰，我會實作一個最入門的用CNN辨識貓狗的程式，但關於CNN理論的部分我不會提到太多，有興趣就麻煩再去搜尋了~

CNN是什麼?

先簡單介紹一下CNN，CNN的全名是(Convolutional Neural Network)，中文是卷積神經網路，是機器學習中的深度學習的一種，也是目前應用於影像辨識非常熱門的一種模型。

資料集準備

我這次使用Kaggle的貓狗資料集，可以先下載下來，總共有三個檔案分別是訓練集train(包含貓狗各12500張圖片)，以及測試集test(12500張未分類的圖片)，和sample_submission。由於小弟太窮沒錢買GPU且為了節省時間，我先把貓和狗各挑了100張圖片，並分別放到自建的dog和cat資料夾內。

程式實作

載入需要的Library

import torch
import torch.nn as nn
from torchvision import datasets ,models,transforms
from pathlib import Path
from matplotlib import pyplot as plt
import numpy as np
import torch.nn.functional as F
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
from torch.nn import Linear, ReLU, CrossEntropyLoss, Conv2d, MaxPool2d, Module
from torch.optim import Adam
import pandas as pd
import os
from os import listdir
from tqdm import tqdm_notebook as tqdm
from PIL import Image

準備資料、設定超參數

Path_train填入自己的資料夾路徑，我的train裡面有dog和cat的資料夾，分別有各100張圖，並設定Batch和Learning Rate，transforms函數可以將圖片轉成(224,224)的像素，同時將圖片轉成Pytorch能讀取的tensor格式。

PATH_train="...../train"
TRAIN =Path(PATH_train)
#Batch：每批丟入多少張圖片
batch_size = 8
#Learning Rate：學習率
LR = 0.0001
transforms = transforms.Compose([transforms.Resize((224,224)), transforms.ToTensor()]

切分訓練驗證集

用ImageFolder讀取檔案並套入前面transforms的轉換函數，ImageFolder會把圖片根據資料夾給予label，可以用class_to_idx查詢貓和狗分別對應的label，print出來的結果會像這樣。

{‘cat’: 0, ‘dog’: 1}

注意ImageFolder必須在資料夾內有子資料夾才可使用，所以我先分別把貓和狗的圖放進cat和dog的資料夾。

train_data = datasets.ImageFolder(TRAIN, transform=transforms)
#print(train_data.class_to_idx)
#切分70%當作訓練集、30%當作驗證集
train_size = int(0.7 * len(train_data))
valid_size = len(train_data) - train_size
train_data, valid_data = torch.utils.data.random_split(train_data, [train_size, valid_size])
#Dataloader可以用Batch的方式訓練
train_loader = torch.utils.data.DataLoader(train_data, batch_size=batch_size,shuffle=True)
valid_loader = torch.utils.data.DataLoader(valid_data, batch_size=batch_size,shuffle=True)

建立CNN的架構

這邊要定義自己的CNN架構，我用最簡單的範例，基本上CNN最主要就是Convolutional和Maxpool兩種層所組成，Relu是激發函數，然後最後要用線性層輸出預測結果，因為貓狗是兩個種類，所以Linear後面的參數就是2，輸出結果如[0.487,0.9527]，index為1的狗比較大，代表預測結果為狗。

最後也可以加一層Softmax讓兩者機率加起來為1如[0.7,0.3])

Pytorch最少要定義兩個function，一個是__init__，用來建立你forward需要用到哪些層，另一個是forward，也就是定義路徑要怎麼走，不需另外定義Backward，Pytorch會自動幫你設定Back-propagation的路徑。

至於參數的設定我這邊簡單講一下

self.cnn1=nn.Conv2d(3,16,kernal_size=5,stride=1)

3代表input的channel，因為圖片是RGB所以是3，16代表output的channel，這邊我用了16個hidden node所以為16，kernel_size是5*5的filter。

self.maxpool1 = nn.MaxPool2d(kernel_size=2)

這裡的kernel_size代表2*2的格子取最大的一格，會將8*8縮成4*4。

self.fc = nn.Linear(8 * 50 * 50, 2)

至於線性層為何是(8*50*50,2)，根據下面這個公式算出下一層的shape，如原圖是(3,224,224)經過cnn1後，(224–5+1)/(1+1)=110，因此maxpool1的input就變成(16,110,110)，而Maxpool1的kernal_size為2，因此output就變成(16,55,55)，以此類推最後的Shape就變成(8*50*50,2)。

(weight-kernel+1)/stride+1 無條件進位

class CNN_Model(nn.Module):
    #列出需要哪些層
    def __init__(self):
        super(CNN_Model, self).__init__()
# Convolution 1 , input_shape=(3,224,224)
        self.cnn1 = nn.Conv2d(3, 16, kernel_size=5, stride=1) 
        self.relu1 = nn.ReLU(inplace=True) 
        # Max pool 1
        self.maxpool1 = nn.MaxPool2d(kernel_size=2)
# Convolution 2
        self.cnn2 = nn.Conv2d(16,8, kernel_size=11, stride=1) 
        self.relu2 = nn.ReLU(inplace=True) 
        # Max pool 2
        self.maxpool2 = nn.MaxPool2d(kernel_size=2)
# Fully connected 1 ,#input_shape=(8*50*50)
        self.fc = nn.Linear(8 * 50 * 50, 2)     
    #列出forward的路徑，將init列出的層代入
    def forward(self, x):
        out = self.cnn1(x) 
        out = self.relu1(out)
        out = self.maxpool1(out)
        out = self.cnn2(out)
        out = self.relu2(out)
        out = self.maxpool2(out)
        out = out.view(out.size(0), -1) 
        out = self.fc(out) 
        return out

定義訓練過程、計算Loss、Accuracy

這邊先將訓練、驗證模組化，傳入的函數包含model(要使用的模型)、n_epochs(迭代次數)、train_loader、valid_loader(訓練、驗證集)、optimizer(優化器)、Criterion(損失函數)。

1.train_loss和valid loss是算出每個batch的平均loss
2.tqdm可以很好的跟data製作出進度條(如上圖)
3.model.eval()會關閉batchnorm、dropout，雖這範例沒有，但一般都會用到
4.output.data.max用來輸出較大的index如[0.487,0.9527]，則輸出1 P
5.Validation階段不需做BP，所以少了幾步

def train(model,n_epochs,train_loader,valid_loader,optimizer,criterion):
    train_acc_his,valid_acc_his=[],[]
    train_losses_his,valid_losses_his=[],[]
    for epoch in range(1, n_epochs+1):
        # keep track of training and validation loss
        train_loss,valid_loss = 0.0,0.0
        train_losses,valid_losses=[],[]
        train_correct,val_correct,train_total,val_total=0,0,0,0
        train_pred,train_target=torch.zeros(8,1),torch.zeros(8,1)
        val_pred,val_target=torch.zeros(8,1),torch.zeros(8,1)
        count=0
        count2=0
        print('running epoch: {}'.format(epoch))
        ###################
        # train the model #
        ###################
        model.train()
        for data, target in tqdm(train_loader):
            # move tensors to GPU if CUDA is available
            if train_on_gpu:
                data, target = data.cuda(), target.cuda()
            # forward pass: compute predicted outputs by passing inputs to the model
            output = model(data)
            # calculate the batch loss
            loss = criterion(output, target)
            #calculate accuracy
            pred = output.data.max(dim = 1, keepdim = True)[1]
            train_correct += np.sum(np.squeeze(pred.eq(target.data.view_as(pred))).cpu().numpy())
            train_total += data.size(0)
            # backward pass: compute gradient of the loss with respect to model parameters
            loss.backward()
            # perform a single optimization step (parameter update)
            optimizer.step()
            # update training loss
            train_losses.append(loss.item()*data.size(0))
            # clear the gradients of all optimized variables
            optimizer.zero_grad()
            if count==0:
                train_pred=pred
                train_target=target.data.view_as(pred)
                count=count+1
            else:
                train_pred=torch.cat((train_pred,pred), 0)
                train_target=torch.cat((train_target,target.data.view_as(pred)), 0)
        train_pred=train_pred.cpu().view(-1).numpy().tolist()
        train_target=train_target.cpu().view(-1).numpy().tolist()
######################    
        # validate the model #
        ######################
        model.eval()
        for data, target in tqdm(valid_loader):
            # move tensors to GPU if CUDA is available
            if train_on_gpu:
                data, target = data.cuda(), target.cuda()
            # forward pass: compute predicted outputs by passing inputs to the model
            output = model(data)
            # calculate the batch loss
            loss =criterion(output, target)
            #calculate accuracy
            pred = output.data.max(dim = 1, keepdim = True)[1]
            val_correct += np.sum(np.squeeze(pred.eq(target.data.view_as(pred))).cpu().numpy())
            val_total += data.size(0)
            valid_losses.append(loss.item()*data.size(0))
            if count2==0:
                val_pred=pred
                val_target=target.data.view_as(pred)
                count2=count+1
            else:
                val_pred=torch.cat((val_pred,pred), 0)
                val_target=torch.cat((val_target,target.data.view_as(pred)), 0)
        val_pred=val_pred.cpu().view(-1).numpy().tolist()
        val_target=val_target.cpu().view(-1).numpy().tolist()
        
        # calculate average losses
        train_loss=np.average(train_losses)
        valid_loss=np.average(valid_losses)
        
        # calculate average accuracy
        train_acc=train_correct/train_total
        valid_acc=val_correct/val_total
train_acc_his.append(train_acc)
        valid_acc_his.append(valid_acc)
        train_losses_his.append(train_loss)
        valid_losses_his.append(valid_loss)
# print training/validation statistics 
        print('\tTraining Loss: {:.6f} \tValidation Loss: {:.6f}'.format(
            train_loss, valid_loss))
        print('\tTraining Accuracy: {:.6f} \tValidation Accuracy: {:.6f}'.format(
            train_acc, valid_acc))
    return train_acc_his,valid_acc_his,train_losses_his,valid_losses_his,model

開始訓練囉~

首先初始化CNN_Model()，使用最常用的Adam作為Optimizer，由於是分類問題Loss Function選用CrossEntropy，代入函數即可以開始訓練囉！！

model1=CNN_Model()
n_epochs = 10
optimizer1 = torch.optim.Adam(model1.parameters(), lr=LR)
criterion = CrossEntropyLoss()
train_acc_his,valid_acc_his,train_losses_his,valid_losses_his,model1=train(model1,n_epochs,train_loader,valid_loader,optimizer1,criterion)

訓練結果、儲存Model

這邊就可以把剛剛訓練完的結果留下來，並畫成loss和accuracy(如上圖)，檢驗訓練的狀況，由於訓練非常耗時間，可以用torch.save的函數把訓練好的model保存下來，之後就可以直接load進來用。
由於是做範例示範，所以用了很簡單的架構及非常少的data，所以從上面的圖可發現training和validation差非常遠，有非常嚴重的Overfitting的問題，因此之後可以再去進行調整。

plt.figure(figsize=(15,10))
plt.subplot(221)
plt.plot(train_losses_his, 'bo', label = 'training loss')
plt.plot(valid_losses_his, 'r', label = 'validation loss')
plt.title("Simple CNN Loss")
plt.legend(loc='upper left')
plt.subplot(222)
plt.plot(train_acc_his, 'bo', label = 'trainingaccuracy')
plt.plot(valid_acc_his, 'r', label = 'validation accuracy')
plt.title("Simple CNN Accuracy")
plt.legend(loc='upper left')
plt.show()
torch.save(model1, "....../Dogcat_resnet18")
#model1 = torch.load('..../Dogcat_resnet18')

接下來不斷調整找出最好的參數、架構即可，但注意調整太多次，Validation的效果可能會變差，也容易對Validation Set有Overfitting的問題，而影響模型對Test的泛用性，因此前面data_loader也用了shuffle的函數，把每次的batch洗散，切分資料集也沒使用random_state固定切分的資料。

用自己的CNN參加Kaggle競賽

由於網路上通常到上一步就結束了，但相信不少人也會想知道自己的模型到底好不好，所以我這邊會分享一下如何用自己設計的CNN參加Kaggle競賽。

由於Kaggle給的test集檔案為1.jpg,2.jpg…..因此先將檔案以PIL的格式讀取，在套入transforms的轉換。model的input是batch的方式讀取，因此會有4個維度(8,3,224,224)，由於我們是一張一張讀取，所以model只有3個維度(3,224,224)，因此在用unsqueeze(0)在0的index上加一個維度即變成(1,3,224,224)，就可以預測了。

PS由於Dataloader輸出順序不固定，所以提交部分就另外寫了一個function

def test_submit(model,n_img,path): 
    model.eval()
    pred_label=[]
    for i in tqdm(range(1,n_img+1)):
        path = image_path + str(i) +'.jpg'
        img = Image.open(path).convert('RGB')     
        img = transforms(img)
        img = img.unsqueeze(0)
        with torch.no_grad(): 
            output=model(img)
        pred = output.data.max(dim = 1, keepdim = True)[1]
        pred_label.append(int(pred))
    return pred_label

最後把參數帶入，輸出成csv，提交到Kaggle的網站上，大功就告成啦！！

image_path =’.../test/’
n_img=12500
pred_label=test_submit(model1,n_img,image_path)
submit = pd.read_csv('.../sample_submission.csv')
submit['label'] = pred_label
submit['label'] = submit['label'].astype(int)
submit.to_csv('..../submit_dogcat.csv', index= False)

由於小弟我才疏學淺且第一次寫技術分享相關文章，可能有很多錯誤和不周延的地方，再請各位大神指教、糾正了，感謝大家~

若覺得有幫助可以追蹤我、按喜歡、收藏，我就會寫出更多相關文章，謝謝你~
若還有其他想問的或希望我介紹的，可以用FB私訊或在下面回應，我會盡我所能回答

你可能還會想看：

AWS CCP考試準備資源與心得分享(Certified Cloud Practitioner)

幫非結構化資料找個家，快速入門MinIO(一)：基本概念介紹

留言

留言分享你的想法！

吉米富的沙龍

2會員

37內容數

大學科系選擇技巧、高中升學考試經驗分享

吉米富的沙龍的其他內容

2024/06/23

新手必看：RabbitMQ超詳細解析，圖解六大模式應用場景

2024/06/23

新手必看：RabbitMQ超詳細解析，圖解六大模式應用場景

2023/01/17

AWS CCP考試準備資源與心得分享(Certified Cloud Practitioner)

這半年因為準備工作開始摸AWS，用Free-Tier摸了大概3個月左右後，雖然會用一些簡單服務部署Side Project，但AWS真的太博大精深，覺得還是對AWS的框架有個了解比較好，有證照對於履歷上還是比較有幫助，這篇會簡單介紹一下AWS的證照類型，著重在考試準備資源、方式和考試當天的過程，有興

2023/01/17

AWS CCP考試準備資源與心得分享(Certified Cloud Practitioner)

2022/11/07

幫非結構化資料找個家，快速入門MinIO(一)：基本概念介紹

之前實習時剛好公司有需要實作MinIO相關自動化腳本的需求，算是把MinIO摸得蠻仔細的，剛好網路上沒有太多相關中文資訊，趁這個機會來介紹一下MinIO，若有興趣就歡迎看下去吧～ MinIO是什麼? MinIO是一個使用Golang開發的雲端儲存的開源專案，專注於儲存大量的非結構化的數據，如圖片、影

2022/11/07

幫非結構化資料找個家，快速入門MinIO(一)：基本概念介紹

看更多

你可能也想看

小蝸慢慢爬

婚禮開箱-我們的婚禮有多少東西是從蝦皮買的？！同場加映新婚夫妻必備推薦

結婚是一個重大的決定，而辦婚禮更是一件耗時間耗心力又得花大錢的事。但這可是小豬和小蝸一生一次的重大決定，就算沒有太多錢，也不想失去該有的質感怎麼辦？今天就來開箱小豬和小蝸的婚禮，和大家分享我們怎麼用少少的錢買到那些不可或缺的東西。當然是靠蝦皮購物啊!!!

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

小蝸慢慢爬

婚禮開箱-我們的婚禮有多少東西是從蝦皮買的？！同場加映新婚夫妻必備推薦

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

他口趴趴走

入厝好物分享｜蝦皮分潤計畫 × 佈置新家的小確幸

分享新家入住與佈置的蝦皮購物好物，包含入厝儀式用品、玄關收納、衣櫥整理等。同時介紹蝦皮「分潤計畫」，教學如何操作並分享聯盟行銷優點，以及雙11購物優惠資訊，鼓勵讀者一同加入賺取額外收入。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

他口趴趴走

入厝好物分享｜蝦皮分潤計畫 × 佈置新家的小確幸

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/06

犬研室的沙龍

視訊課程能怎麼幫助到有攻擊問題的狗狗呢？

Nunu一隻因攻擊傾向被寵物旅館拒收的科基，透過犬研室視訊課程調整相處方式來改善生活中的摩擦。課程增加散步頻率、互動遊戲及理解Nunu需求，六週的視訊課程改變了Nunu的互動方式，媽媽稱Nunu為自己的孩子，並感受到開心成長。

2024/06/19

2024/06/19

每種寵物的腦容量和思考角度各有不同，例如狗具有較大的腦容量和較高的智力水平，可以透過學習和經驗來解決問題，並且能夠理解人類的指令和表達。另一方面，貓雖然腦容量較小，但具有敏銳的感知能力和靈活適應性。

2024/05/09

2024/05/09

AI繪本-萌翻了！逃命小英雄：貓咪緊抱狗狗的逃生記

這篇文章描述了一次使用DALL-E3 of ChatGPT來創作藝術圖的過程，並介紹了原始創意的來源和貓狗奔跑的趣味圖片的背景故事。作者藉由DALL-E3的智能功能成功繪製出了與原始圖片相似的作品，並分享了其中的趣味與心得。

#E3#AI繪圖#ChatGPT

2024/01/06

因人廢言

AI繪本-萌翻了！逃命小英雄：貓咪緊抱狗狗的逃生記

#E3#AI繪圖#ChatGPT

2024/01/06

AI筆者的沙龍

智慧毛孩新境界：AI助你養狗、聽話、快樂無限！

你是否曾經想過，除了我們人類，我們的毛孩子也能享受到AI的魔法嗎？沒錯，我最近發現了一些超酷的AI工具，它們竟然可以幫助我們訓練狗狗！不信？那就讓我來告訴你更多關於這個神奇的世界吧！

#狗狗#學習#專業

2023/08/27

AI筆者的沙龍

智慧毛孩新境界：AI助你養狗、聽話、快樂無限！

#狗狗#學習#專業

2023/08/27

寵愛小編的沙龍

2023特定寵物業專任人員訓練課程：台北假日第二梯-開課日8/13-犬貓眼疾治療與預防保健，社團法人中華寵愛健康發展促進

此課程符合台北市、新北市動保處特定寵物業專任人員訓練課程，採認3小時，旨在提供專業的知識和技能，幫助家人陪伴他們的毛孩子度過一段美好的時光。毛孩最讓人覺得可愛之處，就是有著一雙水汪汪、天真無辜的大眼睛，即使把家裡搞得天翻地覆、全身髒兮兮，只要牠們兩個眼睛直盯著我們，就會讓人忍不住想趕快抱緊處理、怒

#獸醫師#特定寵物專任人員訓練課程#特寵課程

2023/06/17

寵愛小編的沙龍

2023特定寵物業專任人員訓練課程：台北假日第二梯-開課日8/13-犬貓眼疾治療與預防保健，社團法人中華寵愛健康發展促進

#獸醫師#特定寵物專任人員訓練課程#特寵課程

2023/06/17

寵美師吳芯的世界-心靈/食旅/寵物的沙龍

KCT貓咪檢定考之人生豁出去1120609

先來說明一下什麼是KCT吧! 台灣畜犬協會 ( Kennel Club of Taiwan ) 的前身，中華民國畜犬協會為全國九個地方畜犬團體於1990年共同協議成立，1991年在 AKU 亞洲畜犬聯盟 ( Asian Kennel Union ) 與 Federation Cynologique

#寵物證照課程

2023/06/09

寵美師吳芯的世界-心靈/食旅/寵物的沙龍

KCT貓咪檢定考之人生豁出去1120609

2023/06/09

2023/05/26

2023/05/26

Google Chrome瀏覽器是很常用的瀏覽網頁工具，今天要教你在瀏覽器每次開啟分頁的時候，都可以自動產生一隻螢幕小寵物，包含貓貓、狗狗、企鵝、烏龜、小雞、兔子等等。讓你開啟Chrome的時候增加一些樂趣，小寵物是用瑪卡龍色系的插化風製成，呆萌可愛度很高！系統偶爾還會

2023/02/09

2023/02/09

【麻瓜期】ISAC 動物溝通入門講座課後感想

動物傳心動物溝通講座最近幾年各種寵物溝通如同雨後春筍一般不斷冒出，我相信很多人應該都和我當初一樣，對寵物溝通感到好奇，卻又半信半疑，再加上寵物溝通的費用並不便宜，對於一般收入的人而言，除非真的有需要，像是動物的行為已經對家長造成嚴重困擾，否則通常都會選擇遠遠觀望，而不是去主動接觸。促使我開始接

#動物傳心#ISAC#寵物溝通

2020/09/17

貓日宅夜的漫遊隨筆

【麻瓜期】ISAC 動物溝通入門講座課後感想

#動物傳心#ISAC#寵物溝通

2020/09/17

吉米富的沙龍

CNN實作Kaggle貓狗影像辨識(Pytorch)

最近剛好修了Pytorch相關的課，在Kaggle上也丟了個比賽，想說就來分享一下Pytorch的入門實戰，我會實作一個最入門的用CNN辨識貓狗的程式，但關於CNN理論的部分我不會提到太多，有興趣就麻煩再去搜尋了~ CNN是什麼? 先簡單介紹一下CNN，CNN的全名是(Convolutional N

#Pytorch#Kaggle#CNN

2020/04/23

吉米富的沙龍

CNN實作Kaggle貓狗影像辨識(Pytorch)

#Pytorch#Kaggle#CNN

2020/04/23

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News