GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)

更新 發佈閱讀 2 分鐘

GBDT(Gradient Boosting Decision Tree,梯度提升決策樹)是一種集成學習算法,由多棵決策樹串聯組成,通過逐步擬合前一棵樹預測誤差來提升整體模型性能。GBDT在多種任務中表現優秀,尤其適用於結構化數據分析。

GBDT 與高維稀疏數據應用:

  • 處理稀疏數據能力:GBDT能有效處理缺失值和稀疏特徵,比如用於文本分類中的詞袋模型,或用戶行為中的二元特徵(有/無)。
  • 特別優化:一些GBDT實現如XGBoost、LightGBM針對稀疏數據有專門設計,能自動處理缺失值並利用稀疏性加速計算。
  • 過擬合風險:在高維稀疏數據中,GBDT容易過擬合,因為樹模型可能過分擬合少數關鍵特徵,導致泛化能力下降。
  • 正則化幫助:正則化技術(如樹的深度限制、葉節點數限制、特徵子集抽樣)幫助減少過擬合,提升稀疏數據上的性能。

GBDT的優點:

  • 表達能力強,能自動捕捉特徵間非線性關系,
  • 不需複雜特徵預處理,對數據尺度不敏感,
  • 強可解釋性,易於理解決策過程。

限制:

  • 高維稀疏場合下,效果可能不如正則化良好的線性模型或深度神經網路,
  • 訓練計算資源消耗較大,難以處理超大規模數據。

總結來說,GBDT在高維稀疏數據中有一定優勢,尤其是在特徵自動選擇和缺失值處理方面,適合多數結構化場景,但要防止過擬合及提升可擴展性,需合理參數調整與算法優化。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
21會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
2025/09/08
高維稀疏數據是指同時具備兩個特徵的數據類型: 高維度(High-Dimensional):數據具有非常多的特徵維度,可能從數百、數千到數萬,甚至上百萬。比如詞袋模型中詞彙表的大小、使用One-Hot編碼時產生的維度。 稀疏性(Sparsity):在這些高維空間中,大部分特徵值多為零或缺失,只
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
2025/09/08
在線性分類問題中,「線性可分」 是指數據集中的不同類別樣本可以被一條(或一個)線性決策邊界完全分開,且沒有任何誤分類的現象。 具體定義: - 在二維空間中,線性可分意味著存在一條直線,能將所有屬於類別A的數據點和類別B的數據點完全分隔到直線的兩側。 - 在更高維度中,這條直線對應的是一個超平面
2025/09/05
Bootstrap 是一種統計和機器學習中常用的重抽樣技術,通過從原始數據集中「有放回地」多次抽取樣本,生成多組新的訓練數據集(稱為Bootstrap樣本),用以估計統計量的分布,提升模型穩定性和泛化能力。 Bootstrap的主要特點: 有放回抽樣**:從原數據集中抽取樣本,抽取後的樣本可被再
2025/09/05
Bootstrap 是一種統計和機器學習中常用的重抽樣技術,通過從原始數據集中「有放回地」多次抽取樣本,生成多組新的訓練數據集(稱為Bootstrap樣本),用以估計統計量的分布,提升模型穩定性和泛化能力。 Bootstrap的主要特點: 有放回抽樣**:從原數據集中抽取樣本,抽取後的樣本可被再
看更多
你可能也想看
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
在小小的租屋房間裡,透過蝦皮購物平臺採購各種黏土、模型、美甲材料等創作素材,打造專屬黏土小宇宙的療癒過程。文中分享多個蝦皮挖寶地圖,並推薦蝦皮分潤計畫。
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
小蝸和小豬因購物習慣不同常起衝突,直到發現蝦皮分潤計畫,讓小豬的購物愛好產生價值,也讓小蝸開始欣賞另一半的興趣。想增加收入或改善伴侶間的購物觀念差異?讓蝦皮分潤計畫成為你們的神隊友吧!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google 翻譯 (https://translate.google.com/) 提供了一個隨時可用的官方翻譯介面,Google 在其翻譯演算法中也擁有 Transf
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Google 翻譯 (https://translate.google.com/) 提供了一個隨時可用的官方翻譯介面,Google 在其翻譯演算法中也擁有 Transf
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
我會先打一些內容給GPT後面再交給GPT去整理去思考去寫那一章節的故事,所以大致上都是GPT幫我寫的我只提供一半內容和點子GPT提供完整內容
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 回顧 AI說書 - 從0開始 - 87 說:Wang 等人 2019 年的論文,提供了合理答案的選擇 (Choice of Plausible Answers, COP
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 以下陳述任務 (Task)、模型 (Model)、微調 (Fine-Tuning)、GLUE (General Language Understanding Evalu
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續 xxx 提到,既然提到訓練,就表示要有一套衡量基準供大家遵守,有鑑於此,以下繼續介紹幾類衡量方式: MCC: 首先介紹 True (T) Positive (
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續xxxx,ChatGPT 產生的程式,我們將它匯入 Colab 執行看看 ( Colab 使用教學見 使用Meta釋出的模型,實作Chat GPT - Part 0
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續xxxx,ChatGPT 產生的程式,我們將它匯入 Colab 執行看看 ( Colab 使用教學見 使用Meta釋出的模型,實作Chat GPT - Part 0
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力,同時在AI說書 - 從0開始 - 26靠ChatGPT產生Decision Tree程式,現在我們來
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 延續AI說書 - 從0開始 - 25示範了ChatGPT程式的能力,同時在AI說書 - 從0開始 - 26靠ChatGPT產生Decision Tree程式,現在我們來
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
Thumbnail
在機器學習領域中,監督學習、無監督學習和強化學習是三種核心方法,它們在解決不同類型的問題時發揮著重要作用。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News