AI 和機器學習系列筆記不會分享怎麼「使用」AI ,而是了解 AI 機器學習背後的理論,以後就不會聽到AI 就被唬得一愣一愣。
名詞解釋
人工智慧有很多領域機器學習、演算法、深度學習
以下內容取自於這部影片 All Machine Learning Concepts Explained in 22 Minutes
1. 人工智慧與機器學習的基本概念
Machine Learning 機器學習
- 核心概念:機器學習是人工智慧(AI)的分支之一,通過大量資料進行學習,不需要人為設定規則。例如垃圾郵件分類屬於機器學習的應用。
- 例子:像小孩一開始無法區分狗和貓,但經過後天學習可以逐漸精準分類。
Algorithm 演算法
可以參考我之前寫的筆記:演算法與資料結構:圖和樹的定義 | 遍歷 | 最小生成樹 | 堆積排序 | Stack & Queue
- 核心概念:演算法是事先設定的規則,用以處理資料並產生預期輸出。例如尋找地圖上最短路徑。
- 例子:資料搜尋、分類與分析等問題都可透過演算法解決。
2. 模型與訓練
Model in Machine Learning 機器學習中的模型
- 核心概念:模型是一種用於進行預測的數學結構。例如線性模型
Model Fitting, Training, Validation 模型擬合與訓練
- 核心概念:
- 資料集分為三類:
- Training Set 訓練集:用於讓模型學習,例如狗和貓的圖片。
- Validation Set 驗證集:用來檢驗模型是否能正確處理類似的資料,就像模擬考題。Validation Set 會先抽同個資料集的部分當作模擬小考題,剩下的用來訓練。
- Test Set 測試集:用全新資料測試模型是否僅靠記憶還是有實際學習能力,類似大學入學考試。
3. 機器學習類型
Supervised Learning 監督式學習
- 核心概念:訓練資料帶有標籤(Label),例如哪張圖片是狗,哪張是貓。
- 例子:網站的「選擇有車的圖片」測驗即為監督式學習的應用。
Unsupervised Learning 非監督式學習
- 核心概念:機器需自行發現資料中的規律性,無需標籤。
- 例子:以下的動物圖片,非監督式學習會自行依照特徵分配。具體在商業上會使用非監督式學習做顧客消費行為分類。
- 資料收集與處理:
- 輸入資料:例如購物頻率、平均花費金額、購買類別分佈(如食品、服飾、電子產品)等。
- 資料前處理:進行特徵縮放(例如標準化)、填補缺漏值,並移除異常數據。(第四章會補充)
- 使用 K-Means 或 階層式聚類(Hierarchical Clustering) 方法。K-means 簡單來說是先大略 K 群,譬如3群,再把資料隨機分,每群的數值取重心 centroid ,重新把資料點分類,實際細節可以參考右邊的連結。 Machine Learning - K-means
- 修正分群數量 k(通常使用肘部法則或輪廓分數進行評估)。(細節之後寫筆記)
- 案例示範:
- 透過購物行為將顧客分為以下幾群:
- 高價值顧客:購物頻率高、單筆金額高(如 VIP 客戶)。價格敏感型顧客:聽到打折就心動。偶爾購買型顧客:購物頻率低,單筆金額中等。特定品類偏好者:專注於特定產品類別(如我買了三台電子書閱讀器)。
Reinforcement Learning 強化學習
- 核心概念:透過「互動」學習,不是監督式也不是非監督式,類似訓練寵物。
4. 特徵與資料處理(我之前不知道的觀念)
Feature Engineering 特徵工程
- 核心概念:將原始數據轉化為更具意義的特徵,例如將數字定義為年齡、薪資,或將日期標註為假日。
Feature Scaling 特徵縮放(標準化與正規化)
- 核心概念:標準化資料,例如將年齡(兩位數)與薪資(五位數)通過數學方法縮放至相同範圍(如 0 到 1)。
- 方式:將數據調整為平均值為 0,標準差為 1 的分佈
最左圖將薪水和年齡畫在同一張表,因為數值落差太大,完全不能比較
Curse of Dimensionality 維度詛咒*** (本篇會獨立解釋)
- 核心概念:當資料的維度過高(如房屋特徵包含距離、價格、面積等),分析與找到關聯性變得困難,因此需要降維處理。
5. 模型問題與優化
Model Complexity, Underfitting, Overfitting 模型複雜度、欠擬合與過擬合
- 核心概念:
- Underfitting:模型過於簡單,無法準確捕捉資料趨勢。
- Overfitting:模型過於複雜,把雜訊也納入,導致代表程度不足。
Bias & Variance Tradeoff 偏差與方差取捨
Bias(偏差)
- 定義:偏差是指模型的預測結果與真實目標之間的誤差。如果偏差高,模型可能過於簡單,無法捕捉數據的真正模式。
- 例子:假設你在預測房價時,用一條直線來表示房價與房屋面積的關係(過於簡單)。這樣的模型無法捕捉真實的波動,結果會產生高偏差。
- 特徵:
- 預測與實際值的誤差較大。
- 模型過於簡單,導致「欠擬合」(Underfitting)。
2. Variance(方差)
- 定義:方差是指模型對不同數據集的敏感度。如果方差高,模型可能過於複雜,將每個雜訊都捕捉訓練。
- 例子:如果你在預測房價時,使用了一個非常複雜的多項式模型,將訓練數據的每個波動都擬合,模型可能無法應對新數據。
- 特徵:
- 模型在訓練數據上的表現很好,但在測試數據上的表現不佳(雜訊太多)。
- 模型過於複雜,導致「過擬合」(Overfitting)。
- 取捨:需要平衡兩者以提升模型預測能力。
6. 進階主題與優化技術
Regularization 正規化
- 核心概念:透過限制模型複雜度,避免過擬合(overfitting),類似平滑心電圖波形。
Batch, Iteration, Epoch 批次、迭代與時代
- 核心概念:
- Batch:一次處理部分資料。
- Iteration:每次更新參數的過程。
- Epoch:完成所有資料訓練一輪。
K-fold Validation K折交叉驗證
- 核心概念:將資料分為 K 個部分,輪流作為訓練集與測試集,提升模型穩定性。通常使用 K = 5
以下假設 K=5:
- 將數據集分成 5 個部分 F1,F2,F3,F4,F5
- 第一輪:
- 使用 F1,F2,F3,F4 作為訓練集。
- 使用 F5 作為測試集。
- 第二輪:
- 使用 F1,F2,F3,F5 作為訓練集。
- 使用 F4F 作為測試集。
- 依此類推,直到每個折都作為一次測試集。
- 將 5 次測試的結果(如準確率或均方誤差)取平均,作為模型的性能指標。
Parameter & Hyperparameter 參數與超參數
- 核心概念:
- Parameter 參數:模型學習中產生的值(如線性回歸的 a 和 b)。
- Hyperparameter 超參數:訓練前設定的值(如學習率)。
Loss Function & Gradient Descent 損失函數與梯度下降***本篇也會獨立說明
- 核心概念:
- Loss Function:衡量模型預測與實際值的差異。如何判斷哪個模型比較好?每個點距離線性的距離加總,最小的就是最好的。
- Gradient Descent:通過反覆調整參數,找到損失函數的最小值。 當維度過高時(許多參數資料)會啟動主成分分析(PCA)
把每次調整後,值到線性函數的距離紀錄,並尋找最小值。即差距最少的函數。
終於在 AI 的名詞篇前進一小步了,已經寫筆記寫到快睡著 😴,下一篇來學習線性回歸與梯度下降,再下下篇機器學習延伸內容。