資料來源為
電子資料申請
Edit descriptionplvr.land.moi.gov.tw
110年,第一季至第四季,台北市的資料
下載完後,會看到每一年每一季的實價登錄資料夾,裡面有很多檔案,主要可以分成以下三種:
- x_lvr_land_a:房屋買賣交易
- x_lvr_land_b:新成屋交易
- x_lvr_land_c:租房交易
其中 x 是一個英文字母,代表每個縣市,也就是你身份證字號的開頭,
例如台北,就是「a」,新北市就是「f」,以此類推。

在jupyterlab輸入以下指令安裝pandas-profiling
!pip install pandas-profiling
pandas-profiling
從 pandas 生成配置文件報告DataFrame
。pandasdf.describe()
函數很方便,但對於探索性數據分析有點基礎。pandas-profiling
用擴展了 pandas DataFrame
,df.profile_report()
它會自動生成一個標準化的單變量和多變量報告,用於數據理解。
pandas-profiling
是一個用於 Python pandas 資料框架的探索性資料分析工具。它可以生成互動式的報告,這些報告提供了數據集的高級摘要和各個變量的詳細分析。報告包括變量的統計摘要、數據分佈的可視化,以及變量間的關聯性分析等。
主要特點
- 概觀資訊: 快速獲得數據集中的變數類型、觀察值數量和缺失值數量。
- 變量詳情: 每個變量的統計摘要,包括均值、模式、標準差、缺失值、唯一值數量等。
- 相關性分析: 熱圖和其他圖表顯示變量間的相關性。
- 樣本資料: 數據集的頭部和尾部。
- 支持多種格式的報告: HTML、JSON等。
如何安裝
可以通過 pip 安裝 pandas-profiling:
pip install pandas-profiling
使用範例
這裡提供一個簡單的範例,如何使用 pandas-profiling
生成一個數據集的報告。
import pandas as pd
from pandas_profiling import ProfileReport
# 載入數據集
df = pd.read_csv('your_data.csv')
# 創建報告
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)
# 將報告存為 HTML 文件
profile.to_file("your_report.html")
這段代碼會讀取 CSV 文件中的數據,創建一個包含數據集概述和詳細分析的報告,然後將該報告保存為 HTML 文件。用户可以在網頁瀏覽器中打開和互動這個報告。
對於每一列,以下信息(只要與列類型相關)都顯示在交互式 HTML 報告中:
- 類型推斷:檢測 DataFrame 中的列類型
- 要點:類型、唯一值、缺失值指示
- 分位數統計:最小值、Q1、中位數、Q3、最大值、範圍、四分位間距
- 描述性統計:均值、眾數、標準差、總和、中值絕對差、變異係數、峰度、偏度
- 最常見和極值
- 直方圖:分類和數值
- 相關性:高相關性警告,基於不同的相關性指標(Spearman、Pearson、Kendall、Cramér’s V、Phik)
- 缺失值:通過計數、矩陣、熱圖和樹狀圖
- 重複行:最常見的重複行列表
- 文本分析:最常見的類別(大寫、小寫、分隔符)、腳本(拉丁文、西里爾文)和塊(ASCII、西里爾文)
- 文件和圖像分析:文件大小、創建日期、尺寸、截斷圖像的指示和 EXIF 元數據的存在
只要五行code
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title=”Pandas Profiling Report”, explorative=True)
df 為已經合併的資料集


變量數為34個,資料筆數為51650,缺失值 221642,非重複行為0,數值型態變數為5個,分類型態變數為29個。
主要建材

主要用途

交易年月日
資料尚未清洗,日期單位為日,資料型態為字串,圖表計數只會顯示幾個而已。

使用其他自動生成報告的函式庫做成的圖表
只不過為何會有其他年份的交易資料???

交易標的

備註

建物型態

建物現況格局

有無管理組織

車位類別

有無電梯

簡單的互動式圖表

前十筆資料

後十筆資料

如果對您有幫助
望您不吝拍個手,或是留言作交流,感謝閱讀
待續
作者:黃翊鈜 Roy Hwang
經歷:ML engineer , AI engineer