machinelearning

含有「machinelearning」共 36 篇內容
全部內容
發佈日期由新至舊
數據洩漏是在機器學習和數據分析中,因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響,並提供防範措施,如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。
Thumbnail
本文探討推薦系統的流程,從召回、粗排到精排及重排,分析各步驟在實務中的應用與挑戰。透過公司案例及小紅書的例子,以解釋如何在大量可選項目中精準推薦滿足用戶需求的項目,並強調效率的重要性。文章還指出了多樣性在推薦系統中的角色,以提升使用者留存率與滿意度。
Thumbnail
本文探討四個關鍵的分類模型評估指標:準確率、精確率、召回率與 F1-Score。這些指標各自從不同角度反映模型的預測性能,理解它們的定義、計算方式和適用情境,能夠幫助您在數據分析和機器學習項目中做出更優的決策。
Thumbnail
本文探討了聚類算法中常用的效果評估指標,包括內部和外部指標,並詳細介紹了輪廓係數、群集內距離平方和(WCSS)及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點,適用於不同的聚類場景,有助於有效評估聚類質量,提升無監督學習的效能。
Thumbnail
這篇文章深入探討了數據科學與機器學習中的主要聚類算法,包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景,幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例,方便讀者進一步學習與實踐。
Thumbnail
虛擬變數陷阱(Dummy Variable Trap)是指在進行One-Hot Encoding時,生成的虛擬變數之間存在完全多重共線性,影響回歸模型的準確性。透過具體的例子,本文探討瞭如何避免這個陷阱,以提升機器學習模型的效果與穩定性。
Thumbnail
使用 BigQuery ML,讓 Data Analyst 可以在僅會 SQL 的情況下,建立預測模型,做到「快速分析多個特徵」給予客戶分群建議
Thumbnail
XGBoost(eXtreme Gradient Boosting)是一種基於梯度提升框架的機器學習算法,專注於高效的分類與迴歸問題。它廣泛應用於數據分析和競賽中,因其出色的模型訓練能力。本文探討 XGBoost 實際中的實作,適合希望掌握此技術的讀者,並對模型調參提供有價值的技巧與建議。
Thumbnail
本篇文章介紹陰性(Negative)和陽性(Positive)的概念,這些術語源於統計學和醫學檢測,廣泛應用於二分類問題的預測模型表現評估。本文解釋了真陽性、真陰性、假陽性和假陰性的定義及其在不同應用場景(中的重要性,並探討瞭如何選擇合適的評估指標和調整模型閾值,以提高模型性能與業務決策的有效性。
Thumbnail