JayRay 資料科學-學習筆記
1
位追蹤者
追蹤
資料科學學習筆記
JayRay 的沙龍
4
會員
19
內容數
加入
前往沙龍
加入
前往沙龍
發佈內容
我的成就
全部內容
由新到舊
JayRay 的沙龍
2024/10/12
【資料分析】最清楚分別準確率、精確率、召回率、F1-Score 的差異與使用情境
本文探討四個關鍵的分類模型評估指標:準確率、精確率、召回率與 F1-Score。這些指標各自從不同角度反映模型的預測性能,理解它們的定義、計算方式和適用情境,能夠幫助您在數據分析和機器學習項目中做出更優的決策。
#
模型
#
指標
#
機器學習
25
留言
JayRay 的沙龍
2024/10/01
【資料分析】python機器學習-判斷聚類算法好壞的常用內部指標
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
#
數據
#
程式
#
數據分析
2
留言
JayRay 的沙龍
2024/09/29
【資料分析】python機器學習-常用非監督式學習的聚類算法
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
#
數據
#
異常
#
合併
14
留言
JayRay 的沙龍
2024/09/25
【資料分析】python機器學習-什麼是虛擬變數陷阱? 虛擬變數陷阱所引發問題與處理
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
#
模型
#
數據
#
python
31
留言
JayRay 的沙龍
2024/09/06
【資料分析】揭開機器學習競賽冠軍模型的秘密 XGBoost 算法介紹
XGBoost(eXtreme Gradient Boosting)是一種基於梯度提升框架的機器學習算法,專注於高效的分類與迴歸問題。它廣泛應用於數據分析和競賽中,因其出色的模型訓練能力。本文探討 XGBoost 實際中的實作,適合希望掌握此技術的讀者,並對模型調參提供有價值的技巧與建議。
#
模型
#
數據
#
學習
1
留言
JayRay 的沙龍
2024/09/05
【資料分析】資料分析中的陽性、陰性、假陽性、假陰性是什麼?
本篇文章介紹陰性(Negative)和陽性(Positive)的概念,這些術語源於統計學和醫學檢測,廣泛應用於二分類問題的預測模型表現評估。本文解釋了真陽性、真陰性、假陽性和假陰性的定義及其在不同應用場景(中的重要性,並探討瞭如何選擇合適的評估指標和調整模型閾值,以提高模型性能與業務決策的有效性。
#
模型
#
陰性
#
陽性
26
留言
JayRay 的沙龍
2024/09/05
【資料分析】python機器學習-什麼是多重共線性? 多重共線性所引發問題與處理
多重共線性是指迴歸模型中,自變數(特徵)之間存在高度線性相關的現象,這會導致模型對各變數獨立影響估計的困難,並降低其解釋性和預測能力。本文將探討多重共線性的定義、成因、影響以及如何識別和解決這一問題,從而提升模型的穩定性和準確性。
#
模型
#
主成分
#
數據
13
留言
JayRay 的沙龍
2024/08/29
【資料分析】python機器學習-什麼是標籤欄位不平衡? 造成的影響以及處理辦法
在機器學習和數據分析中,在分類任務中標籤不平衡是普遍存在的問題。本文探討了標籤不平衡對模型訓練和預測性能的影響,並提供解決方案,例如過採樣、欠採樣、調整類別權重和使用適合的不平衡數據評估指標。透過這些方法,能夠提高模型在類別上的預測準確性,從而促進更優化的機器學習應用。
#
模型
#
數據
#
指標
25
留言
JayRay 的沙龍
2024/08/27
【資料分析】python機器學習-找到模型的最佳超參數
在機器學習中,超參數的設定對模型的性能至關重要。本文介紹了主要的超參數調整方法,包括網格搜索、隨機搜索、貝葉斯優化、交叉驗證以及自適應搜索算法。每種方法的優缺點詳細說明,幫助讀者選擇最合適的調整策略。透過這些技術,可以有效提高模型的泛化能力與性能,並實現更好的機器學習效果。
#
模型
#
學習
#
數據
12
留言
JayRay 的沙龍
2024/08/27
【資料分析】python機器學習-Overfitting的判斷與處理
過擬合是機器學習中的一個常見問題,指模型在訓練數據上表現優異但在未見過的測試數據上效果不佳。本文介紹了多種避免過擬合的方法,包括增加數據量、使用正則化、交叉驗證、簡化模型結構以及學習曲線分析等。透過這些策略,能夠提升模型的泛化能力和在未來預測中的可靠性,幫助讀者更好地理解和解決過擬合問題。
#
模型
#
數據
#
測試
29
留言
vocus 勳章
NFT
了解
如何蒐集勳章