資料來源為
電子資料申請
Edit descriptionplvr.land.moi.gov.tw
資料爬蟲請參考這位大神的文章
110年,第一季至第四季,台北市的資料
下載完後,會看到每一年每一季的實價登錄資料夾,裡面有很多檔案,主要可以分成以下三種:
其中 x 是一個英文字母,代表每個縣市,也就是你身份證字號的開頭,
例如台北,就是「a」,新北市就是「f」,以此類推。
在jupyterlab輸入以下指令安裝pandas-profiling
!pip install pandas-profiling
pandas-profiling
從 pandas 生成配置文件報告DataFrame
。pandasdf.describe()
函數很方便,但對於探索性數據分析有點基礎。pandas-profiling
用擴展了 pandas DataFrame
,df.profile_report()
它會自動生成一個標準化的單變量和多變量報告,用於數據理解。
pandas-profiling
是一個用於 Python pandas 資料框架的探索性資料分析工具。它可以生成互動式的報告,這些報告提供了數據集的高級摘要和各個變量的詳細分析。報告包括變量的統計摘要、數據分佈的可視化,以及變量間的關聯性分析等。
可以通過 pip 安裝 pandas-profiling:
pip install pandas-profiling
這裡提供一個簡單的範例,如何使用 pandas-profiling
生成一個數據集的報告。
import pandas as pd
from pandas_profiling import ProfileReport
# 載入數據集
df = pd.read_csv('your_data.csv')
# 創建報告
profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)
# 將報告存為 HTML 文件
profile.to_file("your_report.html")
這段代碼會讀取 CSV 文件中的數據,創建一個包含數據集概述和詳細分析的報告,然後將該報告保存為 HTML 文件。用户可以在網頁瀏覽器中打開和互動這個報告。
對於每一列,以下信息(只要與列類型相關)都顯示在交互式 HTML 報告中:
只要五行code
import numpy as np
import pandas as pd
from pandas_profiling import ProfileReport
profile = ProfileReport(df, title=”Pandas Profiling Report”, explorative=True)
df 為已經合併的資料集
變量數為34個,資料筆數為51650,缺失值 221642,非重複行為0,數值型態變數為5個,分類型態變數為29個。
主要建材
主要用途
交易年月日
資料尚未清洗,日期單位為日,資料型態為字串,圖表計數只會顯示幾個而已。
使用其他自動生成報告的函式庫做成的圖表
只不過為何會有其他年份的交易資料???
交易標的
備註
建物型態
建物現況格局
有無管理組織
車位類別
有無電梯
簡單的互動式圖表
前十筆資料
後十筆資料
如果對您有幫助
望您不吝拍個手,或是留言作交流,感謝閱讀
待續
作者:黃翊鈜 Roy Hwang
經歷:ML engineer , AI engineer