使用pandas自動生成分析報告 內政部不動產實價登錄

更新於 發佈於 閱讀時間約 4 分鐘

資料來源為

電子資料申請
Edit descriptionplvr.land.moi.gov.tw

資料爬蟲請參考這位大神的文章

110年,第一季至第四季,台北市的資料

下載完後,會看到每一年每一季的實價登錄資料夾,裡面有很多檔案,主要可以分成以下三種:

  • x_lvr_land_a:房屋買賣交易
  • x_lvr_land_b:新成屋交易
  • x_lvr_land_c:租房交易

其中 x 是一個英文字母,代表每個縣市,也就是你身份證字號的開頭,
例如台北,就是「a」,新北市就是「f」,以此類推。

raw-image

在jupyterlab輸入以下指令安裝pandas-profiling

!pip install pandas-profiling

pandas-profiling從 pandas 生成配置文件報告DataFrame。pandasdf.describe()函數很方便,但對於探索性數據分析有點基礎。pandas-profiling用擴展了 pandas DataFramedf.profile_report()它會自動生成一個標準化的單變量和多變量報告,用於數據理解。

pandas-profiling 是一個用於 Python pandas 資料框架的探索性資料分析工具。它可以生成互動式的報告,這些報告提供了數據集的高級摘要和各個變量的詳細分析。報告包括變量的統計摘要、數據分佈的可視化,以及變量間的關聯性分析等。

主要特點

  • 概觀資訊: 快速獲得數據集中的變數類型、觀察值數量和缺失值數量。
  • 變量詳情: 每個變量的統計摘要,包括均值、模式、標準差、缺失值、唯一值數量等。
  • 相關性分析: 熱圖和其他圖表顯示變量間的相關性。
  • 樣本資料: 數據集的頭部和尾部。
  • 支持多種格式的報告: HTML、JSON等。

如何安裝

可以通過 pip 安裝 pandas-profiling:

pip install pandas-profiling

使用範例

這裡提供一個簡單的範例,如何使用 pandas-profiling 生成一個數據集的報告。

import pandas as pd
from pandas_profiling import ProfileReport
# 載入數據集
df = pd.read_csv('your_data.csv')
# 創建報告
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)
# 將報告存為 HTML 文件
profile.to_file("your_report.html")

這段代碼會讀取 CSV 文件中的數據,創建一個包含數據集概述和詳細分析的報告,然後將該報告保存為 HTML 文件。用户可以在網頁瀏覽器中打開和互動這個報告。

對於每一列,以下信息(只要與列類型相關)都顯示在交互式 HTML 報告中:

  • 類型推斷:檢測 DataFrame 中的列類型
  • 要點:類型、唯一值、缺失值指示
  • 分位數統計:最小值、Q1、中位數、Q3、最大值、範圍、四分位間距
  • 描述性統計:均值、眾數、標準差、總和、中值絕對差、變異係數、峰度、偏度
  • 最常見和極值
  • 直方圖:分類和數值
  • 相關性:高相關性警告,基於不同的相關性指標(Spearman、Pearson、Kendall、Cramér’s V、Phik)
  • 缺失值:通過計數、矩陣、熱圖和樹狀圖
  • 重複行:最常見的重複行列表
  • 文本分析:最常見的類別(大寫、小寫、分隔符)、腳本(拉丁文、西里爾文)和塊(ASCII、西里爾文)
  • 文件和圖像分析:文件大小、創建日期、尺寸、截斷圖像的指示和 EXIF 元數據的存在

只要五行code

import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title=”Pandas Profiling Report”, explorative=True)

df 為已經合併的資料集

raw-image

raw-image

變量數為34個,資料筆數為51650,缺失值 221642,非重複行為0,數值型態變數為5個,分類型態變數為29個。

主要建材

raw-image

主要用途

raw-image

交易年月日

資料尚未清洗,日期單位為日,資料型態為字串,圖表計數只會顯示幾個而已。

raw-image

使用其他自動生成報告的函式庫做成的圖表

只不過為何會有其他年份的交易資料???

raw-image

交易標的

raw-image

備註

raw-image

建物型態

raw-image

建物現況格局

raw-image

有無管理組織

raw-image

車位類別

raw-image

有無電梯

raw-image

簡單的互動式圖表

raw-image

前十筆資料

raw-image

後十筆資料

raw-image

如果對您有幫助

望您不吝拍個手,或是留言作交流,感謝閱讀

待續

作者:黃翊鈜 Roy Hwang

經歷:ML engineer , AI engineer

avatar-img
1會員
10內容數
留言
avatar-img
留言分享你的想法!

































































你可能也想看
Google News 追蹤
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
透過分析臺灣好行的公開資料,分享如何用Python繪製折線圖
Thumbnail
本文介紹瞭如何使用 Python pandas 進行資料分析,包括如何使用 corr() 函數針對數字類型的欄位進行分析,以及如何刪除不需要的欄位和取得想要的小數位數。
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,將資料表做樞紐轉換,垂直方向是月份,水平方向是不同的城市,而表格內容是該城市在某個月份的溫度。 題目的原文敘述 測試範例 Example 1: Input: +--------------+-
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
pandas是用於資料操縱和分析的Python軟體庫。它建造在 NumPy 基礎上,並為操縱數值表格和時間序列,提供了資料結構和運算操作。 Pandas 的主要資料結構包含 Series 和 DataFrame 物件,由於 Pandas 本身基 Numpy 所以在使用大量資料運算時效能表現也優於原
Thumbnail
透過分析臺灣好行的公開資料,分享如何用Python繪製折線圖
Thumbnail
本文介紹瞭如何使用 Python pandas 進行資料分析,包括如何使用 corr() 函數針對數字類型的欄位進行分析,以及如何刪除不需要的欄位和取得想要的小數位數。
Thumbnail
題目敘述 題目會給定一個pandas DataFrame作為輸入,要求我們以原有的資料表為基礎,將資料表做樞紐轉換,垂直方向是月份,水平方向是不同的城市,而表格內容是該城市在某個月份的溫度。 題目的原文敘述 測試範例 Example 1: Input: +--------------+-