JayRay 資料科學-學習筆記

5 位追蹤者

資料科學學習筆記

JayRay 的沙龍

11會員

23內容數

全部內容

由新到舊

JayRay 的沙龍

2025/01/21

【資料分析】深度學習 DNN、CNN、RNN 概述

本文章提供深度學習(Deep Learning)、深度神經網絡(DNN)、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的簡介，並包含它們的定義、應用場景、基本結構、工作原理、優缺點和Python範例。

#數據 #python #分析師

JayRay 的沙龍

2025/01/05

【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

本篇文章提供描述性統計的完整指南，涵蓋集中趨勢、離散趨勢和數據分佈等重要概念，並附上豐富的實務應用案例與 Python 資料視覺化參考連結，協助讀者快速瞭解數據分析的基礎知識。

#數據 #模型 #python

JayRay 的沙龍

2024/12/25

【資料分析】簡單高效的機器學習模型 Naive Bayes

Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法，適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立，這在現實中不常成立，但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。

#數據 #機器學習 #machinelearning

JayRay 的沙龍

2024/11/29

【資料分析】什麼是數據洩漏? 新手常犯的錯誤以及該如何正確分析資料

數據洩漏是在機器學習和數據分析中，因不當使用資料而造成的模型性能評估錯誤。這篇文章探討數據洩漏的常見形式及其對模型可靠性的影響，並提供防範措施，如嚴格劃分數據集、僅對訓練集進行預處理和使用交叉驗證。瞭解這些概念有助於構建更穩健的數據驅動模型。

#數據 #資訊 #機器學習

JayRay 的沙龍

2024/10/12

【資料分析】最清楚分別準確率、精確率、召回率、F1-Score 的差異與使用情境

本文探討四個關鍵的分類模型評估指標：準確率、精確率、召回率與 F1-Score。這些指標各自從不同角度反映模型的預測性能，理解它們的定義、計算方式和適用情境，能夠幫助您在數據分析和機器學習項目中做出更優的決策。

#模型 #指標 #機器學習

JayRay 的沙龍

2024/10/01

【資料分析】python機器學習-判斷聚類算法好壞的常用內部指標

本文探討了聚類算法中常用的效果評估指標，包括內部和外部指標，並詳細介紹了輪廓係數、群集內距離平方和（WCSS）及Davies-Bouldin指數三種主要指標的計算方法、優缺點與應用場景。這些指標各有特點，適用於不同的聚類場景，有助於有效評估聚類質量，提升無監督學習的效能。

#數據 #程式 #數據分析

JayRay 的沙龍

2024/09/29

【資料分析】python機器學習-常用非監督式學習的聚類算法

這篇文章深入探討了數據科學與機器學習中的主要聚類算法，包括 K-means、DBSCAN 和層次聚類。介紹了每種算法的工作原理、優缺點及其適用場景，幫助讀者理解何時選擇何種聚類技術。本文還提供了相關的程式碼範例，方便讀者進一步學習與實踐。

#數據 #異常 #合併

JayRay 的沙龍

2024/09/25

【資料分析】python機器學習-什麼是虛擬變數陷阱? 虛擬變數陷阱所引發問題與處理

虛擬變數陷阱（Dummy Variable Trap）是指在進行One-Hot Encoding時，生成的虛擬變數之間存在完全多重共線性，影響回歸模型的準確性。透過具體的例子，本文探討瞭如何避免這個陷阱，以提升機器學習模型的效果與穩定性。

#模型 #數據 #python

JayRay 的沙龍

2024/09/06

【資料分析】揭開機器學習競賽冠軍模型的秘密 XGBoost 算法介紹

XGBoost（eXtreme Gradient Boosting）是一種基於梯度提升框架的機器學習算法，專注於高效的分類與迴歸問題。它廣泛應用於數據分析和競賽中，因其出色的模型訓練能力。本文探討 XGBoost 實際中的實作，適合希望掌握此技術的讀者，並對模型調參提供有價值的技巧與建議。

#模型 #數據 #學習

JayRay 的沙龍

2024/09/05

【資料分析】資料分析中的陽性、陰性、假陽性、假陰性是什麼?

本篇文章介紹陰性（Negative）和陽性（Positive）的概念，這些術語源於統計學和醫學檢測，廣泛應用於二分類問題的預測模型表現評估。本文解釋了真陽性、真陰性、假陽性和假陰性的定義及其在不同應用場景（中的重要性，並探討瞭如何選擇合適的評估指標和調整模型閾值，以提高模型性能與業務決策的有效性。

#模型 #陰性 #陽性