2022-06-04|閱讀時間 ‧ 約 5 分鐘

使用pandas自動生成分析報告 內政部不動產實價登錄

    資料來源為

    資料爬蟲請參考這位大神的

    110年,第一季至第四季,台北市的資料

    下載完後,會看到每一年每一季的實價登錄資料夾,裡面有很多檔案,主要可以分成以下三種:

    • x_lvr_land_a:房屋買賣交易
    • x_lvr_land_b:新成屋交易
    • x_lvr_land_c:租房交易

    其中 x 是一個英文字母,代表每個縣市,也就是你身份證字號的開頭,
    例如台北,就是「a」,新北市就是「f」,以此類推。

    在jupyterlab輸入以下指令安裝pandas-profiling

    !pip install pandas-profiling

    pandas-profiling從 pandas 生成配置文件報告DataFrame。pandasdf.describe()函數很方便,但對於探索性數據分析有點基礎。pandas-profiling用擴展了 pandas DataFramedf.profile_report()它會自動生成一個標準化的單變量和多變量報告,用於數據理解。

    pandas-profiling 是一個用於 Python pandas 資料框架的探索性資料分析工具。它可以生成互動式的報告,這些報告提供了數據集的高級摘要和各個變量的詳細分析。報告包括變量的統計摘要、數據分佈的可視化,以及變量間的關聯性分析等。

    主要特點

    • 概觀資訊: 快速獲得數據集中的變數類型、觀察值數量和缺失值數量。
    • 變量詳情: 每個變量的統計摘要,包括均值、模式、標準差、缺失值、唯一值數量等。
    • 相關性分析: 熱圖和其他圖表顯示變量間的相關性。
    • 樣本資料: 數據集的頭部和尾部。
    • 支持多種格式的報告: HTML、JSON等。

    如何安裝

    可以通過 pip 安裝 pandas-profiling:

    pip install pandas-profiling

    使用範例

    這裡提供一個簡單的範例,如何使用 pandas-profiling 生成一個數據集的報告。

    import pandas as pd
    from pandas_profiling import ProfileReport
    # 載入數據集
    df = pd.read_csv('your_data.csv')
    # 創建報告
    profile = ProfileReport(df, title='Pandas Profiling Report', explorative=True)
    # 將報告存為 HTML 文件
    profile.to_file("your_report.html")

    這段代碼會讀取 CSV 文件中的數據,創建一個包含數據集概述和詳細分析的報告,然後將該報告保存為 HTML 文件。用户可以在網頁瀏覽器中打開和互動這個報告。

    對於每一列,以下信息(只要與列類型相關)都顯示在交互式 HTML 報告中:

    • 類型推斷:檢測 DataFrame 中的列類型
    • 要點:類型、唯一值、缺失值指示
    • 分位數統計:最小值、Q1、中位數、Q3、最大值、範圍、四分位間距
    • 描述性統計:均值、眾數、標準差、總和、中值絕對差、變異係數、峰度、偏度
    • 最常見和極值
    • 直方圖:分類和數值
    • 相關性:高相關性警告,基於不同的相關性指標(Spearman、Pearson、Kendall、Cramér’s V、Phik)
    • 缺失值:通過計數、矩陣、熱圖和樹狀圖
    • 重複行:最常見的重複行列表
    • 文本分析:最常見的類別(大寫、小寫、分隔符)、腳本(拉丁文、西里爾文)和塊(ASCII、西里爾文)
    • 文件和圖像分析:文件大小、創建日期、尺寸、截斷圖像的指示和 EXIF 元數據的存在

    只要五行code

    import numpy as np
    import pandas as pd
    from pandas_profiling import ProfileReport
    profile = ProfileReport(df, title=”Pandas Profiling Report”, explorative=True)

    df 為已經合併的資料集

    變量數為34個,資料筆數為51650,缺失值 221642,非重複行為0,數值型態變數為5個,分類型態變數為29個。

    主要建材

    主要用途

    交易年月日

    資料尚未清洗,日期單位為日,資料型態為字串,圖表計數只會顯示幾個而已。

    使用其他自動生成報告的函式庫做成的圖表

    只不過為何會有其他年份的交易資料???

    交易標的

    備註

    建物型態

    建物現況格局

    有無管理組織

    車位類別

    有無電梯

    簡單的互動式圖表

    前十筆資料

    後十筆資料

    如果對您有幫助

    望您不吝拍個手,或是留言作交流,感謝閱讀

    待續

    作者:黃翊鈜 Roy Hwang

    經歷:ML engineer , AI engineer

    分享至
    成為作者繼續創作的動力吧!
    © 2024 vocus All rights reserved.