
機器學習(Machine Learning),基本概念就是用過去觀察的資料,預測未知的結果或值。例如:冰淇淋店結合歷史銷售數據+天氣紀錄,根據天氣預測,推測未來銷售額。

機器學習Machine Learning心智圖 (自製)
機器學習=函式function
- y = f(x),x是變數(特徵feature),y是結果(標籤label)
簡單來說,就是輸入x,經過函式f( )運算,得出結果y。 - x可以是多個特徵值,在數學中表示為向量(vector ),如 [x1、x2、x3、...]。
- 舉例:
當日 (溫度、氣象、風流等) 的天氣測量是 特徵 (x),而每天銷售的冰淇淋數目會是標籤 (y)。
特徵:attributes or features

- 利用過去觀察資料訓練模型,資料形式[x1、x2、x3、...], y
- 訓練:演算法algorithm會嘗試判斷特徵和標籤之間的關聯性,並推算如何從x計算出y。
- 演算法的結果是模型(model),它是封裝好的函式y = f(x)。
- 利用封裝好的模型,我們可以輸入一組特徵值,讓模型算出預測值ŷ (y-hat)。
(y是實際觀察值,ŷ代表預測值)
機器學習的類型Types of machine learning

監督式學習Supervised machine learning
訓練資料包含特徵值[x1、x2、x3、...]和已知的標籤值y
- 迴歸Regression
模型所預測的標籤是數值,例如銷售的冰淇淋數。
(※重點:考題看到「預測數值」,就是要選迴歸) - 分類Classification
二元分類Binary classification
模型預測的結果是互斥的兩項 true/false 或 positive/negative例如:根據病患資料,預測是否有糖尿病風險(是/否)。
多類別分類Multiclass classification
模型預測的結果不局限於二元,結果可以是互斥或多個有效的標籤。
例如:根據企鵝的外觀特徵,歸類為不同種類的企鵝,其結果只能是一種。電影根據其陣容、導演和預算,預測類型 (喜劇、恐怖、愛情、冒險或科幻),電影可以同時分類為科幻、喜劇。
非監督式學習Unsupervised machine learning
訓練資料只有特徵值[x1、x2、x3、...],沒有已知的標籤值y。演算法自行決定資料中觀察特徵的關聯性。
- 分群/叢集Clustering
根據其特徵識別觀察之間的相似度,並將其分組。例如根據人口統計屬性和購買行為來識別一組類似的客戶。
(※重點:考題看到要把特性相似的資料分類,沒有預設好的類別,就是選叢集) - 分群與分類的差別:
兩者的結果都是把觀察分成離散的群組,但使用分類時,你已經知道所屬的類別,所以演算法推算的是特徵和已知分類標籤的關聯性。在分群中,沒有已知的類別,演算法單純根據特徵間的相似程度分組。 - 實務中,你可以先用分群來判斷觀察資料中可能的群組(例如把客戶分成VIP、少量購買、常客...),然後再用分類,來預測新客戶的客戶類別。
AI-900系列文章目錄:
《AI-900》證照考試準備心得與筆記分享 - 系列文章