[Python]pandas畫圖來了解資料結構(熱力、分佈、散佈、成對關係圖)

螃蟹_crab

發佈於Python[基礎][應用][相關]

2024/09/01 更新2024/08/29 發佈閱讀 1 分鐘

接續上一篇文章，使用kaggle平台上的數據資料來實作說明。

[Python ]pandas基本操作，查看、新增、修改資料

用 pandas (pd) 來畫圖了解 MentalHealthSurvey 資料結構，圖表可以幫助你直觀地瞭解 MentalHealthSurvey 資料的結構和變數之間的關係。才有辦法進一步的在去做資料分析。

繪製分佈圖 (Histogram)

hist() 函式用來繪製數值型資料的直方圖，這有助於了解各變數的數值分佈情況。

import pandas as pd
import matplotlib.pyplot as plt

df = pd.read_csv('F:/python/crab/pandas/MentalHealthSurvey.csv')
df.hist(bins=30, figsize=(15, 10))
plt.show()

bins=30: 指定直方圖中分箱的數量，越多的分箱能夠顯示更細節的分佈。
figsize=(15, 10): 設定圖表的大小，以便更清晰地查看。
plt.show(): 顯示圖表。

資料分佈圖

繪製相關矩陣圖 (Correlation Matrix)

heatmap() 函式用於繪製數據的熱力圖，特別是相關矩陣，來顯示變數之間的相關性。

import seaborn as sns
plt.figure(figsize=(12, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm', linewidths=0.5)
plt.show()

df.corr(): 計算數據框中各數值型變數之間的相關係數。
annot=True: 在每個單元格中顯示相關係數的數值。
cmap='coolwarm': 指定顏色地圖，用於更直觀地表示相關性強弱。
linewidths=0.5: 設置網格線的寬度。
plt.show(): 顯示圖表。

熱力圖（Heatmap）顯示的相關係數用來衡量兩個變數之間的線性關係，相關係數的範圍為 -1 到 1。

相關性最弱是 0：當相關係數為 0 時，表示兩個變數之間沒有線性關係。
負號表示負相關：相關係數為負數時，表示兩個變數之間存在負相關關係，當一個變數增加時，另一個變數傾向於減少。負相關係數越接近 -1，表示負相關性越強。

因此，相關性最弱的情況是相關係數為 0，此時兩個變數之間沒有線性關係。負號並不表示相關性最弱，而是表示相關性方向相反。

斜線切下來的數值1，因為自己跟自己比當然最相關，理所當然是1，可以明白的了解那些變數與那些變數相關性是特別強的，有助於後續的資料分析。

繪製散佈圖 (Scatter Plot)

散佈圖用於分析兩個數值型變數之間的關係。

df.plot(kind='scatter', x='variable1', y='variable2', alpha=0.5)
plt.show()
kind='scatter': 指定圖表類型為散佈圖。

x='variable1', y='variable2': 指定橫軸和縱軸的變數。
alpha=0.5: 設置點的透明度，以避免過度疊加時看不清楚。
plt.show(): 顯示圖表。

根據上面的熱力圖，我們來挑選看起來相關性特別強跟特別弱的來比較看看。

看起來就depression與anxiety相關性最高0.84顏色最深。

df.plot(kind='scatter', x='depression', y='anxiety', alpha=0.5)
plt.show()

幾乎有部分資料都是重疊在一起了。點的分布呈現了一種往上的直線，代表他們有正相關

最後挑選與depression相關性較弱的financial_concerns來比較一下。

# 創建顏色映射
colors = plt.cm.viridis(df['depression'] / df['depression'].max())
df.plot(kind='scatter', x='depression', y='financial_concerns', c=colors, alpha=0.5)
plt.show()

這個圖跟上面那張圖相比，就雜亂不堪，看的出來沒有什麼相關性。

最後看負相關系數最高的兩個變數

isolation與social_relationships 有-0.56的關係，就看比較深的點，來判斷是否有負關聯。

# 創建顏色映射
colors = plt.cm.viridis(df['isolation'] / df['isolation'].max())

df.plot(kind='scatter', x='isolation', y='social_relationships', c=colors, alpha=0.5)
plt.show()

點的分佈模式：

如果點分佈呈現出某種模式（例如一條向上的直線），則說明 variable1 和 variable2 之間存在正相關關係。
如果點分佈呈現出一條向下的直線，則說明存在負相關關係。
如果點分佈雜亂無章，沒有明顯的模式，則表示兩者之間可能沒有明顯的線性關係。

繪製成對關係圖 (Pairplot)

pairplot() 用於展示多個數值型變數之間的成對關係，生成一組散佈圖和對角線上的分佈圖。

sns.pairplot(df)
plt.show()

sns.pairplot(df): 自動繪製數據框中數值型變數之間的成對關係圖。
plt.show(): 顯示圖表。

成對關係圖是一個強大的工具，用於視覺化多個變數之間的兩兩關係。它可以幫助你快速了解變數之間的有無關聯性、分佈情況以及是否存在異常值或其他模式。這在數據探索和初步分析中非常有用。

螃蟹_crab的沙龍Python[基礎][應用][相關]Pd np re資料

留言

螃蟹_crab的沙龍

161會員

317內容數

本業是影像辨識軟體開發，閒暇時間進修AI相關內容，將學習到的內容寫成文章分享。興趣是攝影，踏青，探索未知領域。人生就是不斷的挑戰及自我認清，希望老了躺在床上不會後悔自己什麼都沒做。

螃蟹_crab的沙龍的其他內容

2024/09/14

[Python]生成器表達式(Generator Expression)介紹

生成器表達式是 Python 中一種更簡潔的語法，專門用來創建生成器。它的語法與列表生成式類似，但將列表生成式中的方括號 [] 替換為小括號 ()。生成器表達式與生成器函數類似，具有「惰性評估」的特性，因此它只在需要時才生成元素，從而節省記憶體。生成器的「惰性評估」（也叫延遲求值）指的是生成器不

2024/09/14

[Python]生成器表達式(Generator Expression)介紹

2024/09/01

[Python][Pandas]將日期欄位改為 DataFrame 的索引

包含著日期型資料在許多不同領域的分析中都非常重要，特別是當數據涉及隨時間變化的趨勢、模式或週期時，例如房價，股票價格分析等等。如何將一個日期欄位改為 DataFrame 的索引，你可以使用 set_index() 方法。實作範例數據來源處理步驟確保日期欄位是 datetime

2024/09/01

[Python][Pandas]將日期欄位改為 DataFrame 的索引

2024/09/01

[Python]pandas資料探索與清理_處理缺失值

為了讓資料更適合進行後續的分析、建立模型，模型的決策準確性，資料探索與清理是資料分析過程中非常重要的步驟，主要目的在於確保資料的品質和可靠性。因為前幾篇的例子中的資料，並沒有缺失值與重複值的部分，我另外找了一份有包含的資料來做案例分析，由於找到的資料沒有重複值的部分，故本文主要解釋處理缺失值的部

2024/09/01

[Python]pandas資料探索與清理_處理缺失值

看更多

你可能也想看

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品，以十段寓言式殘篇，重新拼貼記憶、暴力與美學，並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇：帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略，嘗試解析極權底下不可言說之事，將如何成為可被觀看的公共發聲。

#釀電影#釀評論#藝術評論

2026/01/14

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：以流亡書寫帕拉贊諾夫的政治寓言

#釀電影#釀評論#藝術評論

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

柏林劇團在 2026 北藝嚴選，再次帶來由布萊希特改編的經典劇目《三便士歌劇》（The Threepenny Opera），導演巴里・柯斯基以舞台結構與舞台調度，重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核，藉由沉浸與疏離的辯證，解析此作如何再次照見觀眾自身的位置。

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

趙鐸的沙龍

柏林劇團《三便士歌劇》：善讓人嚮往，惡卻更加迷人──布萊希特的疏離與慾望

#2026北藝嚴選#臺北表演藝術中心#北藝嚴選

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲．蓋柏樂》的詮釋，從劇本歷史、聲響與舞臺設計，到演員的主體創作方法，探討此版本如何讓經典劇作在當代劇場語境下煥發新生，滿足現代觀眾的觀看慾望。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

花神沒有咖啡館的沙龍

《海妲．蓋柏樂》：晃晃跨幅町直球對決經典，解構現代女性的困頓與慾望

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14