【資料分析】資料分析起手式，理解數據並使用python找到資料間的關聯

JayRay 資料科學-學習筆記

更新於 2024/08/11發佈於 2024/08/07閱讀時間約 13 分鐘

在開始進行資料分析之前，我們可以透過一些方法來衡量各變數之間的線性或非線性關係，以此找出變數之間的關聯強度和方向。

這個過程可以幫助我們：

資料探索：初步分析變數之間的關聯，篩選出重要特徵。
預測建模：幫助選擇相關變數進行建模。
變數篩選：根據相關性篩選出對目標變數有顯著影響的特徵。

# 可使用目錄功能快速確認要閱覽的主題

理解數據

首先，在進行資料專案前，需要對數據集有一個全面的了解，包括特徵的類型和數據分佈。

理解數據能幫助我們在尋找資料間的關聯時，有更多的線索可以參考，或是分辨判斷結果的合理性。

以鐵達尼號存活預測的數據為例：

import pandas as pd
import numpy as np
df = pd.read_csv('https://raw.githubusercontent.com/dsindy/kaggle-titanic/master/data/train.csv')

print(df.describe())
print(df.info())
print(df.isnull().sum())

從上面的資訊，我們大概可以知道我們有哪些欄位，分別紀錄著哪些資料，包括特徵的類型和數據分佈，數據的摘要統計信息，以及它們的缺失值狀況。

針對缺失值的處理可以參考:

【資料分析】python資料處理-缺失值處理基礎操作語法彙整

df.describe() 的輸出

df.describe() 默認情況下只會計算數值型列的統計信息。輸出的描述性統計信息包括以下幾個指標：

count：非空值的數量
mean：均值
std：標準差
min：最小值
25%：第一四分位數（25th percentile）
50%：中位數（50th percentile）
75%：第三四分位數（75th percentile）
max：最大值

以鐵達尼號的摘要統計信息可以先對資料有初步的理解：

Survived 的基本統計

平均值為0.383838，表示大約 38.4% 的乘客生還。

Pclass（票務等級）有三個不同的值（1、2、3），表示不同的艙等。

平均值為 2.308642，表示大多數乘客在較低等級的艙等。

Age 的範圍從 0.42 到 80。

平均值為 29.699118，標準差為 14.526497，表示乘客年齡的分佈情況。

SibSp（兄弟姐妹/配偶數量）的範圍從 0 到 8。

平均值為 0.523008，標準差為 1.102743，表示大多數乘客沒有或只有少數兄弟姐妹/配偶同船。

Parch（父母/子女人數）的範圍從 0 到 6。

平均值為 0.381594，標準差為 0.806057，表示大多數乘客沒有或只有少數父母/子女同船。

Fare（票價）的範圍從 0 到 512.329200。

平均值為 32.204208，標準差為 49.693429，表示票價的分佈具有較大的變異性。

Age 和 Fare 有較大的標準差，這意味著這些特徵的值範圍較廣，可能需要進一步處理（如標準化或對數變換）。
SibSp 和 Parch 具有較多的零值，這可能需要進一步分析它們對目標變數的影響。

利用相關矩陣來確認各變數間的關聯

相關矩陣（Correlation Matrix）是一種用於展示多個變數之間兩兩相關性的表格，相關矩陣有許多用途，以下是一些主要用途的詳細說明。

在資料科學中的用途

1. 資料探索和理解：
- 識別變數之間的關係：相關矩陣可以幫助你快速識別資料集中變數之間的相關性。通過觀察相關矩陣中的值，你可以了解哪些變數之間存在強相關性，這對資料理解非常有幫助。
- 發現潛在的問題：例如，多重共線性問題（當多個自變數之間存在高度相關性時），可能會影響迴歸模型的穩定性和解釋性。
2. 特徵選擇：
- 篩選重要特徵：在機器學習和統計建模中，相關矩陣可以幫助你篩選出對目標變數影響較大的特徵。你可以選擇與目標變數高度相關的特徵來進行建模。
- 移除冗餘特徵：當兩個或多個特徵之間存在高度相關性時，可以考慮移除一些冗餘特徵，以減少模型的複雜度。
3. 資料可視化：
- 熱圖（Heatmap）：相關矩陣經常與熱圖結合使用，以視覺化展示變數之間的相關性。這樣可以幫助你更直觀地觀察變數之間的關係。
4. 模型評估和診斷：
- 檢查多重共線性：在迴歸分析中，檢查自變數之間的相關性，以發現多重共線性問題。高共線性可能導致回歸係數的不穩定，影響模型的解釋性和預測性能。
- 選擇適當的變數：根據相關矩陣中的信息，選擇適當的變數來構建更穩定和有效的模型。
5. 時間序列分析：
- 多變量時間序列分析：相關矩陣可以用於多變量時間序列資料的分析，幫助理解不同時間序列之間的相互關係。

使用範例

import seaborn as sns
import matplotlib.pyplot as plt

# 使用皮爾森相關係數來計算相關矩陣
correlation_matrix = df.corr()

# 繪製熱力圖
plt.figure(figsize=(12, 8))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
plt.show()

correlation_matrix = df.corr() 這段程式碼計算的是數據集中各特徵之間的相關矩陣（correlation matrix），不指定方法時，默認方法為皮爾森相關係數。

皮爾森相關係數（Pearson Correlation Coefficient）是一種衡量兩個變數之間線性相關程度的統計指標。它的取值範圍在-1到1之間，其中：

1 表示完全正相關，即一個變數增加，另一個變數也增加。
-1 表示完全負相關，即一個變數增加，另一個變數減少。
0 表示沒有線性相關。

由上述例子可以看到，與特徵 'Survived' 最有正相關的特徵是 'Fare' ，

意即票價越高的乘客，他生存的機率越高，

與'Survived' 最有負相關的特徵是 'Sex'，

意即女性的生存機率高於男性。

皮爾森相關係數的運作原理可以參考：

皮爾森積動差相關係數

使用範例二

# 針對目標變數使用皮爾森相關係數確認所有變數與目標變數的關聯
features = pd.Series(df_analysis.columns)
print(df[features].corrwith(df.Survived).sort_values(ascending=False))

"""
Survived      1.000000
Fare          0.257307
Embarked_C    0.168240
Parch         0.081629
Embarked_Q    0.003650
SibSp        -0.035322
Age          -0.080453
Embarked_S   -0.149683
Pclass       -0.338481
Sex          -0.543351
dtype: float64
"""

利用相互資訊(MI)來衡量變數之間的依賴程度

互資訊（Mutual Information, MI）是一種用於衡量兩個變數之間的依賴程度的統計量。它來自於資訊理論，用於判斷一個變數對於另一個變數的資訊量，即了解一個變數後可以減少多少不確定性。互資訊在特徵選擇、特徵工程和建模中有廣泛應用。

MI 的值是非負值的，且沒有上限。MI 為 0 表示兩個變數完全獨立，值越大表示依賴性越強。

相互資訊的運作原理可以參考：

相互資訊

在資料科學中的用途

特徵選擇：相互資訊可以用來選擇與目標變數最相關的特徵，篩選出有助於預測的變數。
- 在特徵選擇中，將計算得到的互資訊值排序，選擇前幾個最相關的特徵。
特徵工程：相互資訊可以幫助識別和創建新特徵。
- 例如，根據互資訊結果，我們可以嘗試創建一些組合特徵來提高模型的表現。
建模：在構建機器學習模型時，可以使用相互資訊來評估特徵的重要性。
- 這有助於理解特徵對模型預測的影響，並進一步調整特徵工程和模型參數。

使用範例

import pandas as pd
from sklearn.feature_selection import mutual_info_classif

# 以鐵達尼號資料集為例，取出特徵變數 X 和目標變數 y
X = df.drop('Survived', axis=1)
y = df['Survived']

# 計算互資訊
mi = mutual_info_classif(X, y)

# 將結果轉為 DataFrame 以便查看
mi_df = pd.DataFrame(mi, index=X.columns, columns=['Mutual Information'])
print(mi_df.sort_values(by='Mutual Information', ascending=False))


"""
            Mutual Information
Sex                   0.136510
Fare                  0.125579
Pclass                0.055062
Age                   0.044215
Parch                 0.021041
Embarked_Q            0.017950
SibSp                 0.013410
Embarked_C            0.000000
Embarked_S            0.000000
"""

回歸問題與分類問題

當目標變數是分類變數時，使用mutual_info_classif

當目標變數是連續變數時，使用mutual_info_regression

# 分類問題示例

import pandas as pd
from sklearn.feature_selection import mutual_info_classif

# 假設我們有一個 DataFrame df，包含特徵變數 X 和目標變數 y
X = df.drop('target', axis=1)
y = df['target']

# 計算互資訊
mi = mutual_info_classif(X, y)

# 將結果轉為 DataFrame 以便查看
mi_df = pd.DataFrame(mi, index=X.columns, columns=['Mutual Information'])

print(mi_df.sort_values(by='Mutual Information', ascending=False))

# 回歸問題示例

from sklearn.feature_selection import mutual_info_regression

# 假設我們有一個 DataFrame df，包含特徵變數 X 和連續目標變數 y
X = df.drop('target', axis=1)
y = df['target']

# 計算互資訊
mi = mutual_info_regression(X, y)

# 將結果轉為 DataFrame 以便查看
mi_df = pd.DataFrame(mi, index=X.columns, columns=['Mutual Information'])

print(mi_df.sort_values(by='Mutual Information', ascending=False))

使用 mutual_info_classif：
- 當你的目標變數是分類變數時，使用這個函數。
- 例如，當你要預測的目標變數是類別標籤（例如"是/否"，"紅色/藍色/綠色"等），這時候你的目標變數是離散的。
使用 mutual_info_regression：
- 當你的目標變數是連續變數時，使用這個函數。
- 例如，當你要預測的目標變數是某個數值（例如房價、溫度等），這時候你的目標變數是連續的。

留言

留言分享你的想法！

JayRay 的沙龍

12會員

23內容數

JayRay 的沙龍的其他內容

2025/01/21

【資料分析】深度學習 DNN、CNN、RNN 概述

本文章提供深度學習(Deep Learning)、深度神經網絡(DNN)、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的簡介，並包含它們的定義、應用場景、基本結構、工作原理、優缺點和Python範例。

2025/01/21

【資料分析】深度學習 DNN、CNN、RNN 概述

2025/01/05

【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

本篇文章提供描述性統計的完整指南，涵蓋集中趨勢、離散趨勢和數據分佈等重要概念，並附上豐富的實務應用案例與 Python 資料視覺化參考連結，協助讀者快速瞭解數據分析的基礎知識。

2025/01/05

【資料分析】Junior 資料分析師必備的統計知識 (一) - 描述統計

2024/12/25

【資料分析】簡單高效的機器學習模型 Naive Bayes

Naive Bayes是一種基於貝葉斯定理的機器學習分類演算法，適用於文本分類、垃圾郵件檢測及情感分析等任務。雖然假設特徵之間相互獨立，這在現實中不常成立，但其高效計算與穩定性使得在小數據集及高維度特徵空間中表現良好。

2024/12/25

【資料分析】簡單高效的機器學習模型 Naive Bayes

看更多

你可能也想看

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

好好宅在家

設計師也蝦皮購－前陣子為工地買什麼？

家中修繕或裝潢想要找各種小零件時，直接上網採買可以省去不少煩惱～看看Sylvia這回為了工地買了些什麼吧～

#開箱#蝦皮分潤計畫#裝修工程

2025/05/25

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

Chloe小窩

我的簡單生活練習：三款包包與日常小物開箱分享

👜簡單生活，從整理包包開始！我的三款愛用包＋隨身小物清單開箱，一起來看看我每天都帶些什麼吧🌿✨

#蝦皮#開箱#蝦皮分潤計畫

2025/06/05

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

創作者營運專員/經理（Operations Specialist/Manager）將負責對平台成長及收入至關重要的 Partnership 夥伴創作者開發及營運。你將發揮對知識與內容變現、影響力變現的精準判斷力，找到你心中的潛力新星或有聲量的中大型創作者加入 vocus。

#vocus#方格子#求職

2025/06/23

方格子 vocus 官方沙龍

徵才：創作者營運專員/經理（Operations Specialist）｜Creator Partnership 部門

#vocus#方格子#求職

2025/06/23

雲居金融

【技術分析】數據判斷法

本文討論如何利用數據來判斷金融盤勢。重點關注非農就業指數(NFP)、採購經理人指數(PMI)、失業率、消費者物價指數(CPI)等相關重要數據，並提供相關數據公佈時間，以及例子操作模式。文章還著重於數據對交易者決策和交易策略的影響。

2024/06/16

2024/06/16

什麼？！AI也看得懂k線圖？利用機器學習來判斷股票漲跌。(3)Finlab回測

前言這篇會拿Finlab上的策略與機器學習預測線圖的因子進行結合。由於模型是透過2007-2011年的線圖作為訓練資料，回測的時候會從2012年開始以示公平。還沒看過前面兩篇的可以點下面連結，會比較看得懂接下來的內容。第一篇: 什麼？！AI也看得懂k線圖？利用機器學習來判斷股票漲

#模型#AI#股票

2023/12/25

Li way Cheng的沙龍

什麼？！AI也看得懂k線圖？利用機器學習來判斷股票漲跌。(3)Finlab回測

#模型#AI#股票

2023/12/25

Li way Cheng的沙龍

什麼？！AI也看得懂k線圖？利用機器學習來判斷股票漲跌。(2)台股實測

還沒有看過上一篇的可以點擊下面連結什麼？！AI也看得懂k線圖？利用機器學習來判斷股票漲跌。(1)論文解析。這一篇會把注意力放在論文提到的技術並套用在台股市場，也會使用論文中的方法進行驗證，看看是否在台股也有一樣的超額報酬。資料生成第一步也是最難的一步-資料生成。這裡

#股票#台股#AI

2023/12/22

Li way Cheng的沙龍

什麼？！AI也看得懂k線圖？利用機器學習來判斷股票漲跌。(2)台股實測

#股票#台股#AI

2023/12/22

股市觀察家的沙龍

大數據時代，資料為王

在交易千萬別見樹不見林中示範如何在同一張圖表上加入不同週期的行情走勢，本篇將對MultiCharts初體驗-函式撰寫、MultiCharts初體驗-訊號撰寫的程式進行改寫，讓程式可以讀取到多週期的K線資料。在MC中可以用Data1、Data2、⋯⋯、Data99的指定方式，來存取圖表中的數列

#程式交易#MultiCharts#多商品

2023/11/16

股市觀察家的沙龍

大數據時代，資料為王

#程式交易#MultiCharts#多商品

2023/11/16

Karen的沙龍

探索 XGBoost：如何查看訓練模型中的特徵名稱

How to access feature names in a trained XGB model ? 故事是這樣的... 在接手某個專案中，取得了一份已經訓練好的 pickle 檔案記載著 XGBoost model weight ，但因為 feature engineering 的程式碼交

2023/08/09

Karen的沙龍

探索 XGBoost：如何查看訓練模型中的特徵名稱

2023/08/09

教育心理博士的筆記本

潛在類別／剖面／混合分析操作1:找出最佳組數

潛在類別模式（latent class modeling, LCM）和潛在剖面分析(Latent Profile Analysis, LPA)是探討潛在類別變項的統計技術。兩者與因素分析最大的不同在於潛在變項(因素)的形式。本文將介紹潛在類別／剖面／混合分析操作1:找出最佳組數

#混合分析#找出最佳組數#Mplus

2023/01/31

教育心理博士的筆記本

潛在類別／剖面／混合分析操作1:找出最佳組數

#混合分析#找出最佳組數#Mplus

2023/01/31

教育心理博士的筆記本

皮爾森相關係數 (r):公式解釋和SPSS教學

皮爾森相關係數 (r) 是衡量線性相關性的最常用方法。它是一個介於 –1 和 1 之間的數值，用於衡量兩個變量之間關係的強度和方向。本文簡介公式解釋和SPSS教學。

#教學#皮爾森相關係數#相關係數

2022/11/27

教育心理博士的筆記本

皮爾森相關係數 (r):公式解釋和SPSS教學

#教學#皮爾森相關係數#相關係數

2022/11/27

劉奕酉的職場致勝賽局

【數據思維】Chart.Guide 視覺化圖表的學習網站，告訴你如何正確的選擇與使用圖表？

你覺得自己懂得如何使用視覺化圖表嗎？資料隨手可得、工具使用方便，人人都可以做出一張圖表，但沒有讓溝通變得更輕鬆，反而產生了更多問題；手邊的資料愈多，卻愈難去蕪存菁、展現出關鍵的訊息。在這篇文章中，我將和你分享圖表選擇與使用的聰明對策！

#數據思維#圖表#圖表選擇

2022/01/06

劉奕酉的職場致勝賽局

【數據思維】Chart.Guide 視覺化圖表的學習網站，告訴你如何正確的選擇與使用圖表？

#數據思維#圖表#圖表選擇

2022/01/06

陳式語言の投資之道

【Day 11】Pandas教學-兩大資料類型使用教學

今天我們將進入Pandas的領域，雖然Python在資料整理及準備面向是強項，但在資料分析與建模上卻不是如此，所以Pandas的出現就是為了彌補這個缺陷，也是我們日後在進行數據分析相當重要的模組之一，所以要好好學習唷!!

#投資#程式教學#股票

2021/03/15

陳式語言の投資之道

【Day 11】Pandas教學-兩大資料類型使用教學

#投資#程式教學#股票

2021/03/15

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News

理解數據

利用相關矩陣來確認各變數間的關聯

在資料科學中的用途

使用範例

使用範例二

更多相關矩陣方法

利用相互資訊(MI)來衡量變數之間的依賴程度

在資料科學中的用途

使用範例

回歸問題與分類問題