AI與機器學習系列筆記:基礎入門名詞解釋

更新於 發佈於 閱讀時間約 8 分鐘

AI 和機器學習系列筆記不會分享怎麼「使用」AI ,而是了解 AI 機器學習背後的理論,以後就不會聽到AI 就被唬得一愣一愣。

名詞解釋

人工智慧有很多領域機器學習、演算法、深度學習

以下內容取自於這部影片 All Machine Learning Concepts Explained in 22 Minutes

raw-image


1. 人工智慧與機器學習的基本概念

Machine Learning 機器學習

  • 核心概念:機器學習是人工智慧(AI)的分支之一,通過大量資料進行學習,不需要人為設定規則。例如垃圾郵件分類屬於機器學習的應用。
  • 例子:像小孩一開始無法區分狗和貓,但經過後天學習可以逐漸精準分類。

Algorithm 演算法

可以參考我之前寫的筆記:演算法與資料結構:圖和樹的定義 | 遍歷 | 最小生成樹 | 堆積排序 | Stack & Queue

  • 核心概念:演算法是事先設定的規則,用以處理資料並產生預期輸出。例如尋找地圖上最短路徑。
  • 例子:資料搜尋、分類與分析等問題都可透過演算法解決。

2. 模型與訓練

Model in Machine Learning 機器學習中的模型

  • 核心概念:模型是一種用於進行預測的數學結構。例如線性模型
raw-image
直線不是從0原點開始,所以會有+b斜率

直線不是從0原點開始,所以會有+b斜率

  • 備註:線性預測較難,會獨立做進一步筆記。

Model Fitting, Training, Validation 模型擬合與訓練

  • 核心概念:
  • 資料集分為三類:
    • Training Set 訓練集:用於讓模型學習,例如狗和貓的圖片。
    • Validation Set 驗證集:用來檢驗模型是否能正確處理類似的資料,就像模擬考題。Validation Set 會先抽同個資料集的部分當作模擬小考題,剩下的用來訓練。
    • Test Set 測試集:用全新資料測試模型是否僅靠記憶還是有實際學習能力,類似大學入學考試。
raw-image

3. 機器學習類型

Supervised Learning 監督式學習

  • 核心概念:訓練資料帶有標籤(Label),例如哪張圖片是狗,哪張是貓。
  • 例子:網站的「選擇有車的圖片」測驗即為監督式學習的應用。

Unsupervised Learning 非監督式學習

  • 核心概念:機器需自行發現資料中的規律性,無需標籤。
  • 例子:以下的動物圖片,非監督式學習會自行依照特徵分配。具體在商業上會使用非監督式學習做顧客消費行為分類。
raw-image
  • 資料收集與處理
    • 輸入資料:例如購物頻率、平均花費金額、購買類別分佈(如食品、服飾、電子產品)等。
    • 資料前處理:進行特徵縮放(例如標準化)、填補缺漏值,並移除異常數據。(第四章會補充)
    • 使用 K-Means階層式聚類(Hierarchical Clustering) 方法。K-means 簡單來說是先大略 K 群,譬如3群,再把資料隨機分,每群的數值取重心 centroid ,重新把資料點分類,實際細節可以參考右邊的連結。 Machine Learning - K-means
    • 修正分群數量 k(通常使用肘部法則或輪廓分數進行評估)。(細節之後寫筆記)
  • 案例示範
    • 透過購物行為將顧客分為以下幾群:
    • 高價值顧客:購物頻率高、單筆金額高(如 VIP 客戶)。價格敏感型顧客:聽到打折就心動。偶爾購買型顧客:購物頻率低,單筆金額中等。特定品類偏好者:專注於特定產品類別(如我買了三台電子書閱讀器)。

Reinforcement Learning 強化學習

  • 核心概念:透過「互動」學習,不是監督式也不是非監督式,類似訓練寵物。
raw-image



4. 特徵與資料處理(我之前不知道的觀念)

Feature Engineering 特徵工程

  • 核心概念:將原始數據轉化為更具意義的特徵,例如將數字定義為年齡、薪資,或將日期標註為假日。
raw-image

Feature Scaling 特徵縮放(標準化與正規化)

  • 核心概念:標準化資料,例如將年齡(兩位數)與薪資(五位數)通過數學方法縮放至相同範圍(如 0 到 1)。
  • 方式:將數據調整為平均值為 0,標準差為 1 的分佈
值-最小值/ 最大值-最小值

值-最小值/ 最大值-最小值


最左圖將薪水和年齡畫在同一張表,因為數值落差太大,完全不能比較

最左圖將薪水和年齡畫在同一張表,因為數值落差太大,完全不能比較

Curse of Dimensionality 維度詛咒*** (本篇會獨立解釋)

  • 核心概念:當資料的維度過高(如房屋特徵包含距離、價格、面積等),分析與找到關聯性變得困難,因此需要降維處理。

5. 模型問題與優化

Model Complexity, Underfitting, Overfitting 模型複雜度、欠擬合與過擬合

  • 核心概念:
    • Underfitting:模型過於簡單,無法準確捕捉資料趨勢。
    • Overfitting:模型過於複雜,把雜訊也納入,導致代表程度不足。
raw-image


Bias & Variance Tradeoff 偏差與方差取捨

  • 核心概念:

Bias(偏差)

  • 定義:偏差是指模型的預測結果與真實目標之間的誤差。如果偏差高,模型可能過於簡單,無法捕捉數據的真正模式。
  • 例子:假設你在預測房價時,用一條直線來表示房價與房屋面積的關係(過於簡單)。這樣的模型無法捕捉真實的波動,結果會產生高偏差。
  • 特徵
    • 預測與實際值的誤差較大。
    • 模型過於簡單,導致「欠擬合」(Underfitting)。

2. Variance(方差)

  • 定義:方差是指模型對不同數據集的敏感度。如果方差高,模型可能過於複雜,將每個雜訊都捕捉訓練。
  • 例子:如果你在預測房價時,使用了一個非常複雜的多項式模型,將訓練數據的每個波動都擬合,模型可能無法應對新數據。
  • 特徵
    • 模型在訓練數據上的表現很好,但在測試數據上的表現不佳(雜訊太多)。
    • 模型過於複雜,導致「過擬合」(Overfitting)。
  • 取捨:需要平衡兩者以提升模型預測能力。
raw-image

6. 進階主題與優化技術

Regularization 正規化

  • 核心概念:透過限制模型複雜度,避免過擬合(overfitting),類似平滑心電圖波形。

Batch, Iteration, Epoch 批次、迭代與時代

  • 核心概念:
    • Batch:一次處理部分資料。
    • Iteration:每次更新參數的過程。
    • Epoch:完成所有資料訓練一輪。

K-fold Validation K折交叉驗證

  • 核心概念:將資料分為 K 個部分,輪流作為訓練集與測試集,提升模型穩定性。通常使用 K = 5

以下假設 K=5:

  1. 將數據集分成 5 個部分 F1,F2,F3,F4,F5
  2. 第一輪
    • 使用 F1,F2,F3,F4 作為訓練集。
    • 使用 F5 作為測試集。
  3. 第二輪
    • 使用 F1,F2,F3,F5 作為訓練集。
    • 使用 F4F 作為測試集。
  4. 依此類推,直到每個折都作為一次測試集。
  5. 將 5 次測試的結果(如準確率或均方誤差)取平均,作為模型的性能指標。

Parameter & Hyperparameter 參數與超參數

  • 核心概念:
    • Parameter 參數:模型學習中產生的值(如線性回歸的 a 和 b)。
    • Hyperparameter 超參數:訓練前設定的值(如學習率)。

Loss Function & Gradient Descent 損失函數與梯度下降***本篇也會獨立說明

  • 核心概念:
    • Loss Function:衡量模型預測與實際值的差異。如何判斷哪個模型比較好?每個點距離線性的距離加總,最小的就是最好的。
    • Gradient Descent:通過反覆調整參數,找到損失函數的最小值。 當維度過高時(許多參數資料)會啟動主成分分析(PCA)
Loss Function

Loss Function

把每次調整後,值到線性函數的距離紀錄,並尋找最小值。即差距最少的函數。

把每次調整後,值到線性函數的距離紀錄,並尋找最小值。即差距最少的函數。

終於在 AI 的名詞篇前進一小步了,已經寫筆記寫到快睡著 😴,下一篇來學習線性回歸與梯度下降,再下下篇機器學習延伸內容。

留言0
查看全部
avatar-img
發表第一個留言支持創作者!
本文回顧向量內積、方向導數與梯度的概念,並以生活化的比喻和數學公式說明它們在微積分和機器學習中的應用,尤其是在梯度下降法中尋找函數最低點的過程。
本文提供微分的基礎概念介紹,包含微分的定義、極限的應用、Power Rule 和 Chain Rule 的說明,以及偏微分的概念。文中包含圖表公式,並以淺顯易懂的方式說明微積分在 AI 模型訓練中的重要性。
這篇文章介紹了幾種常見的密碼破解方法,例如字典攻擊、密碼填充攻擊、彩虹表攻擊等,並說明使用密碼管理員、以及網站採用 Salting 技術等方式來提升資訊安全。文章也涵蓋了端對端加密、全盤加密、對稱式和非對稱式加密、Passkey 和模數運算等概念,並以淺顯易懂的方式說明其原理和應用。
本篇文章介紹網路爬蟲的基本概念和操作流程,適合初學者瞭解爬蟲的功能與合法使用方式。文章說明爬蟲如何自動蒐集資料及 API 的重要角色,同時提醒用戶注意指南與網站規範。作者也自己嘗試網路爬蟲。也期許自己可以在未來學習到網頁時,能成功操作 LinkedIn 的爬蟲
這個單元我一直很想學習,物件導向 Object Oriented Programming 以前一直以為是一種程式碼,其實是設計程式的觀念,文中我分享了程式碼還有自己想的比喻讓讀者更好理解。除了物件導向,我還介紹其他四種風格的程式碼設計,跟大家一起學習。
深入探討操作系統和中央處理單元 (CPU) 的基本概念,涵蓋 OS 的功能、CPU 的運作,以及程式與執行緒的管理。透過生動的比喻,讀者能夠更輕鬆地理解複雜的硬體運作機制,包括記憶體管理和行程間的通訊。本文為想了解計算機科學的讀者提供了一個清晰的入門指南,讓他們掌握多程式協調與虛擬化技術的基本知識。
本文回顧向量內積、方向導數與梯度的概念,並以生活化的比喻和數學公式說明它們在微積分和機器學習中的應用,尤其是在梯度下降法中尋找函數最低點的過程。
本文提供微分的基礎概念介紹,包含微分的定義、極限的應用、Power Rule 和 Chain Rule 的說明,以及偏微分的概念。文中包含圖表公式,並以淺顯易懂的方式說明微積分在 AI 模型訓練中的重要性。
這篇文章介紹了幾種常見的密碼破解方法,例如字典攻擊、密碼填充攻擊、彩虹表攻擊等,並說明使用密碼管理員、以及網站採用 Salting 技術等方式來提升資訊安全。文章也涵蓋了端對端加密、全盤加密、對稱式和非對稱式加密、Passkey 和模數運算等概念,並以淺顯易懂的方式說明其原理和應用。
本篇文章介紹網路爬蟲的基本概念和操作流程,適合初學者瞭解爬蟲的功能與合法使用方式。文章說明爬蟲如何自動蒐集資料及 API 的重要角色,同時提醒用戶注意指南與網站規範。作者也自己嘗試網路爬蟲。也期許自己可以在未來學習到網頁時,能成功操作 LinkedIn 的爬蟲
這個單元我一直很想學習,物件導向 Object Oriented Programming 以前一直以為是一種程式碼,其實是設計程式的觀念,文中我分享了程式碼還有自己想的比喻讓讀者更好理解。除了物件導向,我還介紹其他四種風格的程式碼設計,跟大家一起學習。
深入探討操作系統和中央處理單元 (CPU) 的基本概念,涵蓋 OS 的功能、CPU 的運作,以及程式與執行緒的管理。透過生動的比喻,讀者能夠更輕鬆地理解複雜的硬體運作機制,包括記憶體管理和行程間的通訊。本文為想了解計算機科學的讀者提供了一個清晰的入門指南,讓他們掌握多程式協調與虛擬化技術的基本知識。
你可能也想看
Google News 追蹤
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
AI,全稱人工智慧,是指讓電腦或機器具備類似人類的智慧和能力的科學和技術。AI 可以幫助我們解決各種問題,提高效率,創造價值,甚至改變世界。但是,你知道 AI 是如何運作的嗎?你知道 AI 的歷史和未來嗎?你知道 AI 的優點和挑戰嗎?在這篇文章中,我將帶你一起認識 AI 的基本概念和發展。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
人工智慧是什麼? 人工智慧(Artificial Intelligence, AI) 簡單來說,就是讓機器模仿人類的思考、學習和決策的能力。它就像是一個聰明的電腦程序,可以執行許多原本需要人類智慧才能完成的工作,例如: 語音辨識: 讓電腦聽懂人類的語言,像是 Siri、Google As
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
在人工智能的發展歷程中,早期的研究主要側重於將解決問題的規則輸入計算機,試圖通過啟蒙運動理性的思路模擬人類的智能行為。然而,這條路逐漸變得艱難,因為規則過於繁多,無法應對複雜的情境和語境。在這個背景下,一些科學家轉向了神經網絡算法,試圖模擬人腦的感知能力。
機器學習是什麼? 簡單來說,機器學習就是訓練機器尋找Function的一段過程,而這個Function可以幫助我們解決我們遇到的問題,或是幫助我們
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
Thumbnail
AI,全稱人工智慧,是指讓電腦或機器具備類似人類的智慧和能力的科學和技術。AI 可以幫助我們解決各種問題,提高效率,創造價值,甚至改變世界。但是,你知道 AI 是如何運作的嗎?你知道 AI 的歷史和未來嗎?你知道 AI 的優點和挑戰嗎?在這篇文章中,我將帶你一起認識 AI 的基本概念和發展。
Thumbnail
AI 是人工智能 (Artificial Intelligence) 的縮寫。它指一種模擬、模仿人類智能的技術與系統。主要使機器能夠執行需要人類智慧才能完成的任務。應用於各領域,包括自動駕駛車輛、語音助手、推薦系統、金融分析、醫學診斷、工業自動化等。不僅可提高效率和準確性,還可解決複雜的問題和挑戰。
Thumbnail
2023年被世人稱做生成式AI世代的元年,各式各樣的AI工具不斷湧現,改變了人們的生活。本文將詳細介紹人工智慧和機器學習的相關知識,以及各種人工智慧和機器學習的實現方法。
近來AI繪圖以及如Chatgpt等可進行對話的AI進入到大眾視野,讓AI成為了熱門話題,網路媒體和論壇冒出許多相關的文章,足見AI之勢著實非同小可。