25/100 決策樹回歸 🌳 像問問題一樣，透過條件分割找出最佳結果！

Hansen W

發佈於AI科技機器學習修煉坊

2025/05/28 更新2025/05/27 發佈閱讀 11 分鐘

AI時代系列(1) 機器學習三部曲: 🔹 第一部：《機器學習 —— AI 智慧的啟航》

25/100 第三週：監督學習（回歸）

25. 決策樹回歸 🌳 像問問題一樣，透過條件分割找出最佳結果！

🌳 決策樹回歸（Decision Tree Regression）

像問問題一樣，透過條件分割找出最佳結果！

________________________________________

📌 1️⃣ 什麼是決策樹回歸？

決策樹回歸是一種非線性回歸模型，它的核心概念是：

• 像問問題一樣，把數據依條件不斷分割

• 在每個區間內使用平均值（或其他統計方法）來預測

• 適合處理非線性、複雜關係的數據集

📌 與線性回歸的比較

線性回歸假設數據之間具有線性關係，透過數學公式擬合一條直線來預測結果，具有良好的可解釋性，但在面對複雜或非線性數據時，準確度可能有限；相較之下，決策樹回歸適用於非線性數據，透過條件判斷逐步分割數據空間，雖然同樣具備可解釋性，但模型容易出現過擬合現象，對於複雜結構能更好擬合，但需要注意模型的泛化能力。

✅ 決策樹回歸適用於複雜的數據關係，不需要假設數據是線性分佈的！

________________________________________

📌 2️⃣ 決策樹回歸的工作原理

🎯 如何建構決策樹？

(1) 選擇最佳分割點（Feature & Threshold）

(2) 根據該分割點將數據拆分成兩組（子節點）

(3) 對每個子節點繼續重複以上步驟，直到滿足停止條件

(4) 最終，每個終端節點的值是該區間內樣本的「平均值」

📊 例子：房價預測

假設我們想要根據「房屋面積（平方公尺）」來預測「房價（萬元）」。

房屋面積（平方公尺）房價（萬元）

30 50

50 80

70 110

90 150

110 180

決策樹可能會這樣分割：

• 房屋面積 ≤ 60 → 平均房價 65 萬

• 60 < 房屋面積 ≤ 100 → 平均房價 130 萬

• 房屋面積 > 100 → 平均房價 180 萬

這樣，新來的房屋就可以依條件進行分類並得到預測房價！

________________________________________

📌 3️⃣ Python 實作：決策樹回歸

我們將比較：

1. 線性回歸

2. 決策樹回歸

3. 決策樹的深度影響

________________________________________

✅ (1) 產生數據

python

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd

from sklearn.tree import DecisionTreeRegressor

from sklearn.linear_model import LinearRegression

from sklearn.model_selection import train_test_split

from sklearn.metrics import mean_squared_error, r2_score

# 產生非線性數據（房屋面積 vs. 房價）

np.random.seed(42)

X = np.random.randint(20, 200, size=(50, 1)) # 房屋面積

y = 3000 * np.sqrt(X) + np.random.randint(-50000, 50000, size=(50, 1)) # 非線性房價

# 繪製散點圖

plt.scatter(X, y, color='blue', alpha=0.5, label="真實數據")

plt.xlabel("房屋面積（平方公尺）")

plt.ylabel("房價（萬元）")

plt.title("房價 vs. 房屋面積")

plt.legend()

plt.show()

📌 房價與房屋面積的關係呈現非線性曲線，線性回歸將難以擬合。

________________________________________

✅ (2) 訓練線性回歸與決策樹回歸

python

# 分割訓練集與測試集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 創建線性回歸模型

lin_reg = LinearRegression()

lin_reg.fit(X_train, y_train)

# 創建決策樹回歸（預設 max_depth=None，即完全展開）

tree_reg = DecisionTreeRegressor(random_state=42)

tree_reg.fit(X_train, y_train)

________________________________________

✅ (3) 預測與比較結果

python

# 預測

y_pred_lin = lin_reg.predict(X_test)

y_pred_tree = tree_reg.predict(X_test)

# 計算 MSE 和 R²

mse_lin = mean_squared_error(y_test, y_pred_lin)

r2_lin = r2_score(y_test, y_pred_lin)

mse_tree = mean_squared_error(y_test, y_pred_tree)

r2_tree = r2_score(y_test, y_pred_tree)

print(f"線性回歸 - MSE: {mse_lin:.2f}, R²: {r2_lin:.4f}")

print(f"決策樹回歸 - MSE: {mse_tree:.2f}, R²: {r2_tree:.4f}")

📌 結果示例：

線性回歸 - MSE: 4.5e+10, R²: 0.52

決策樹回歸 - MSE: 1.2e+9, R²: 0.91

📌 解讀

• 決策樹回歸的 MSE（誤差）比線性回歸小很多

• R² 接近 1，代表模型擬合度更高

________________________________________

✅ (4) 視覺化回歸曲線

python

# 生成更多測試點來畫曲線

X_grid = np.linspace(min(X), max(X), 100).reshape(-1, 1)

y_pred_tree_curve = tree_reg.predict(X_grid)

# 繪製比較圖

plt.scatter(X, y, color='blue', alpha=0.5, label="真實數據")

plt.plot(X, lin_reg.predict(X), color='red', linewidth=2, label="線性回歸")

plt.plot(X_grid, y_pred_tree_curve, color='green', linewidth=2, label="決策樹回歸")

plt.xlabel("房屋面積（平方公尺）")

plt.ylabel("房價（萬元）")

plt.title("線性 vs. 決策樹回歸")

plt.legend()

plt.show()

📌 結果：

• 線性回歸（紅色）：直線擬合效果差

• 決策樹回歸（綠色）：更靈活地擬合非線性數據

________________________________________

📌 4️⃣ 如何選擇決策樹的深度？

如果決策樹太深，它可能會「記住訓練數據」，導致過擬合（Overfitting）。

我們可以透過 max_depth 控制樹的深度：

python

# 設定不同的樹深度

tree_reg_3 = DecisionTreeRegressor(max_depth=3, random_state=42)

tree_reg_3.fit(X_train, y_train)

tree_reg_5 = DecisionTreeRegressor(max_depth=5, random_state=42)

tree_reg_5.fit(X_train, y_train)

tree_reg_full = DecisionTreeRegressor(random_state=42)

tree_reg_full.fit(X_train, y_train)

📌 一般建議

• max_depth=3~5：適合大部分情境，平衡準確度與泛化能力

• 完全展開（max_depth=None）：可能會過擬合，須使用交叉驗證來調整

________________________________________

🎯 總結

✅ 決策樹回歸適合非線性數據，能比線性回歸更準確！

✅ 可以調整 max_depth 來避免過擬合

✅ 決策樹可以擴展為隨機森林回歸，效果更好！

🚀 下一步：探索「隨機森林回歸」來提升預測準確度！ 🌲🔥

Hansen W的沙龍AI科技機器學習修煉坊

留言

留言分享你的想法！

Hansen W的沙龍

11會員

274內容數

AIHANS沙龍是一個結合AI技術實戰、產業策略與自我成長的知識平台，主題涵蓋機器學習、生成式AI、創業經驗、財務規劃及哲學思辨。這裡不只提供系統化學習資源與實作案例，更強調理性思維與行動力的結合。無論你是AI初學者、創業者，還是追求人生升維的行者，都能在這裡找到前進的方向與志同道合的夥伴。

Hansen W的沙龍的其他內容

2025/05/27

24/100 多項式回歸 🏛 當線性回歸不夠用時，讓 AI 用曲線來擬合資料！

多項式回歸，透過加入二次、三次等高次項，把直線變曲線，輕鬆捕捉房價、疾病進展等常見非線性趨勢。若你的散點圖呈彎曲，資料量又不大，使用 degree 2-3 的多項式回歸即可大幅降低 MSE、提升 R²，同時避免深度模型的高成本與複雜度。快速、易實作、效果顯著，是入門者解決非線性問題的首選利器！

2025/05/27

24/100 多項式回歸 🏛 當線性回歸不夠用時，讓 AI 用曲線來擬合資料！

2025/05/27

23/100 正則化回歸（Lasso, Ridge, ElasticNet） 🎛 防止模型過擬合，讓預測能力更穩定！

正則化回歸在損失函數中加入懲罰項，抑制權重過大，避免模型記憶訓練噪聲而過擬合。Ridge (L2) 收縮所有係數；Lasso (L1) 可將部分係數壓成 0，兼具特徵選擇；ElasticNet 結合 L1 與 L2，兼顧去除冗餘與穩定性，特別適合高維且具共線性的資料。

2025/05/27

23/100 正則化回歸（Lasso, Ridge, ElasticNet） 🎛 防止模型過擬合，讓預測能力更穩定！

2025/05/27

22/100 多元線性回歸 📊 考慮多個變數影響，讓預測結果更精準！

多元線性回歸單元，教你一次掌握多維特徵建模、共線性診斷與 Python 實戰，讓房價、銷售額等預測更精準，打下進階回歸與正則化基礎。透過真實數據實驗，從特徵選擇、模型訓練到評估指標，一站式建立多變量思維，快速提升商業分析與決策能力。

2025/05/27

22/100 多元線性回歸 📊 考慮多個變數影響，讓預測結果更精準！

看更多

你可能也想看

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19