[機器學習][監督式][資料分群] 支持向量機 (Support Vector Machine, SVM)

River

2024/10/01 更新2023/10/02 發佈閱讀 8 分鐘

I. 前言

支持向量機 (Support Vector Machine, 簡稱SVM)，是一種將資料分群的機器學習方法。

屬於監督式學習 (supervised learning)，因為:

給定已標記的數據 (labeled data)，SVM可以透過訓練得到分類器模型 (classifier model)。
對於未標記的數據 (unlabeled data)，可以利用訓練好的SVM模型來預測未知數據的類別。

II. 原理

在二維平面上，有紅色與藍色兩種顏色的球 (可視為已標記的數據)。

二維平面SVM分類原理

圖上有三條線 (H1、H2、H3)，若想用其中一條線將紅藍球分開，

哪一條是最佳的呢? 一起來看看!

H1: 無法分開紅、藍球，不考慮。
H2: 雖可以將紅、藍球分開，但有沒有更好的選擇?
H3: 可以準確地將紅、藍球分開，且向量到距離最近的紅、藍球已最大化，此二向量也作為支持向量 (support vector)，其之間的空隙稱為margin，最大化空隙 (maximised margin)視為最佳解。

由上述例子可知，若想找到最佳的分割線 (二維空間)或分割平面 (三維空間)，需要將支持向量之間的margin最大化 (SVM最主要的核心概念)。

III. SVM學習動畫

展示在多維空間找到分割平面的過程。

IV. 範例 (鳶尾花分類)

載入iris資料集
70%、30%切分訓練集 (train set)與測試集 (test set)
以訓練集的特徵 (花萼、花瓣長度與寬度)、類別 (花的種類)訓練SVM模型
(因為是分類問題，這裡用是使用Support Vector Classifier, SVC)
訓練完成後，用測試集的特徵預測花的種類
評估正確率
視覺化:
- 用花萼長度與寬度作圖呈現訓練集與測試集的種類分布
- 測試集種類分布圖上標記黃色星為預測錯誤的點
(亦可用其他特徵作圖，有多種呈現方式)

訓練集種類分布

測試集種類分布

V. 程式碼 (python)

import pandas as pd
import matplotlib.pyplot as plt
import os
from sklearn.model_selection import train_test_split
from sklearn import datasets
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

#%% 取得當前程式放置目錄
current_path = os.getcwd()

#%% 載入iris資料集
iris = datasets.load_iris()

#%% 抓出資料特徵與種類標記
features = pd.DataFrame(iris.data, columns = iris.feature_names)
species = pd.DataFrame(iris.target, columns = ['species'])

#%% 以70%/30%拆分訓練集與測試集
x_train, x_test, y_train, y_test = train_test_split(features, species, test_size = 0.3)

train_set = pd.concat([x_train, y_train], axis = 1).reset_index(drop = True)
test_set = pd.concat([x_test, y_test], axis = 1).reset_index(drop = True)

#%% SVM訓練
svc = SVC() 
svc.fit(train_set[iris.feature_names], train_set['species'])

y_pred = svc.predict(test_set[iris.feature_names])
test_set['species_pred'] = y_pred

# SVM分類準確率
SVM_accuracy = round(accuracy_score(test_set['species_pred'], test_set['species']), 4)
print(f'SVM accuracy: {round(SVM_accuracy * 100, 2)}%')

#%% 以花萼長度(sepal length)與花萼寬度(sepal width)作圖
### 畫出訓練集的群集分布
plt.figure()
for i in range(3):
 if i == 0: c = 'blue'
 if i == 1: c = 'red'
 if i == 2: c = 'black'
 
 item = train_set[train_set['species'] == i]
 plt.scatter(item[iris.feature_names[0]], item[iris.feature_names[1]], color = c, label = f'species {i}')
 
plt.legend()
plt.xlabel(f'{iris.feature_names[0]}')
plt.ylabel(f'{iris.feature_names[1]}')
plt.title('(Train set) clustering distribution')
plt.savefig(current_path + '\\train set_clustering distribution.jpeg')

### 畫出測試集的群集分布，以及標記SVM預測錯誤的點
plt.figure()
for i in range(3):
 if i == 0: c = 'blue'
 if i == 1: c = 'red'
 if i == 2: c = 'black'
 
 item = test_set[test_set['species'] == i]
 plt.scatter(item[iris.feature_names[0]], item[iris.feature_names[1]], color = c, marker = 's', label = f'species {i}')

item_pred_error = test_set[test_set['species_pred'] != test_set['species']]
if len(item_pred_error) != 0:
 plt.scatter(item_pred_error[iris.feature_names[0]], item_pred_error[iris.feature_names[1]], color = 'orange', marker = '*', s = 100, label = 'error prediction')
 
plt.legend()
plt.xlabel(f'{iris.feature_names[0]}')
plt.ylabel(f'{iris.feature_names[1]}')
plt.title('(Test set) clustering distribution')
plt.savefig(current_path + '\\test set_clustering distribution.jpeg')

參考資料

Ch. 1. 什麼是人工智慧

留言

River的沙龍

3會員

1內容數

你可能也想看

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

River的沙龍

[機器學習][監督式][資料分群] 支持向量機 (Support Vector Machine, SVM)

#機器學習#監督式學習#資料分群

2023/10/02

River的沙龍

[機器學習][監督式][資料分群] 支持向量機 (Support Vector Machine, SVM)

#機器學習#監督式學習#資料分群

2023/10/02

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

教育心理博士的筆記本

Mplus基本語法教學

Mplus是一種用於統計分析和結構方程模型（SEM）的軟體，通常用於處理複雜的數據分析和模型建立。以下是一些Mplus的基本語法示例，用於不同類型的分析。

2023/09/04

2023/09/04

[AI小學堂(四)]神經網路是什麼? 神經網路怎麼學習? 超簡化講解反向傳播演算法Back Propagation

在我們的上一篇文章，我們把神經網路的架構用簡化再簡化的方式來說明，本篇文章我們會說明神經網路怎麼透過很多輸入資料來調整神經網路裡面的權重跟誤差值，藉由得到接近完美個權重跟誤差值，來做到學習的效果

#DeepLearning#neuralnetwork#AI

2023/06/11

技術PM路易斯的沙龍

[AI小學堂(四)]神經網路是什麼? 神經網路怎麼學習? 超簡化講解反向傳播演算法Back Propagation

#DeepLearning#neuralnetwork#AI

2023/06/11

茶桁的沙龍

茶桁的AI秘籍 - 人工智能数学基础篇导言

数学对于计算机编程来说重要性是毋庸置疑的，更何况我们现在不仅仅是编程，而是走在「人工智能」的路上。可以说，数学应该是最重要的基础。我们在学习AI的过程当中可能会遇到的一些关于数学方面的一些东西，比如说线性代数里面的矩阵运算，比如说求导，还有一些概率统计，图论方面的一些东西。

#人工智能#数学#Math

2023/08/24

茶桁的沙龍

茶桁的AI秘籍 - 人工智能数学基础篇导言

#人工智能#数学#Math

2023/08/24

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

ysf的沙龍

The Nature of Code閱讀心得與Python實作：1.2 Vectors in...

這一節談的是向量的定義，以及如何運用向量來建立模擬物體運動時，關於位置和速度間的關係式。

#python#Python#PYTHON

2024/06/24

ysf的沙龍

The Nature of Code閱讀心得與Python實作：1.2 Vectors in...

這一節談的是向量的定義，以及如何運用向量來建立模擬物體運動時，關於位置和速度間的關係式。

#python#Python#PYTHON

2024/06/24

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

深智數位的沙龍

【深智書摘】利用Python，帶您遨遊數學世界！

數學為我們提供了豐富多彩的素材用以學習程式設計：從讀者已掌握的知識（例如繪製一個抛物線，計算一個函數的導數）到未知的領域（如求一個複雜函數的極值），這期間有驗證的快樂，也有探索的艱辛，在不斷重複這些活動的過程中學會熟練運用這一工具，工具的熟練使用反過來也會幫助我們對特定問題進行更為深入的探討與研究。

#數學#程式#學習

2023/03/02