【數據分析】汽車銷售預測

更新 發佈閱讀 8 分鐘


資料源:kaggle

的目的是從中提取有價值的資訊,為市場分析、業務決策及預測模型的開發提供支持。該資料集資料如下:

車輛詳細資訊:包括每輛車的具體信息,例如其製造商、型號、裝飾和製造年份。

交易資訊:提供有關銷售交易的見解,包括銷售價格和銷售日期。

市場趨勢:MMR 值提供每輛車市場價值的估計,可以分析市場趨勢和波動。

狀況和里程:包含車輛狀況及其里程表讀數的數據,可以分析這些因素如何影響銷售價格。

其中,價格預測是分析的重要一環,因為準確的價格預測不僅能提升經銷商的市場競爭力,還有助於優化庫存管理、支持買賣決策,並輔助貸款與保險業務的發展。同時,預測價格能揭示市場波動趨勢,幫助行業參與者制定更有效的定價策略,實現營收增長。


價格預測

step1 資料前處理暨建立基線版本

1.從kaggle載入資料集

2.缺失值填補

  • 填補方式:
    • 缺失值較多的欄位依照比例進行填補
    • 缺失值較少的直接以眾數來填補

3.建立baseline1

  • 使用'year', 'condition', 'odometer', 'mmr'等4個特徵來建立baseline1
  • 由於以上4個特徵對sellingprice並非皆呈現線性關係,因此模型選擇Logistic Regression來進行評估,結果如下


raw-image

MAS:

MSE 是預測值與實際值之間差值的平方的平均值。其單位與目標變量(sellingprice)的平方單位一致。

MSE數值較大,表明預測值與實際值之間仍有一定的誤差。可能是價格範圍的落差大所造成

MSE 標準差較小表示模型在不同的交叉驗證中誤差分布較穩定

R²:

R² 分數接近 1,總變異中有95%可被自變數解釋,擬合效果良好。

R² 的標準差很小,說明模型在交叉驗證的不同折中的性能非常穩定,表現一致。


step2 資料探索


  • 由於MSE值非常大,表示可能被離群值所影響,因此先檢查離群值
raw-image

1. Year (年份)

分佈情況:年份的中位數在 2010 年左右,且大部分資料集中在 2000 年以後。

異常值:1985-1995 年份附近有一些異常值,可能代表較舊的車輛數據。

2. Condition (條件/狀態)

分佈情況:值介於 0 到 50 之間,分佈比較均勻,中位數約在 30 左右。

異常值:這裡似乎沒有顯著的異常值。

3. Odometer (里程數)

分佈情況:絕大多數數據集中在 0 至約 20 萬公里範圍內,但長鬚線顯示有較大的擴展範圍。

異常值:一些極高的值(超過 40 萬公里)被視為異常值,可能需要進一步檢查是否合理或是否為數據錯誤。

4. MMR (市場價格)

分佈情況:大部分數據集中在 0 至約 25,000 的範圍內,分佈高度偏右。

異常值:有不少數據超過 100,000,甚至接近 175,000,這些可能是高端車輛或不合理的數據。


  • z score是一種使用標準化尺度來衡量每個資料值與平均數之差距的方法,以下用圖表來表示sellingprice的分數分布狀態
raw-image







標準差超過5的佔全部的1453,約為0.26%

我們嘗試將標準差超過5的資料移除,看是否能降低MSE值


  • 查看condition和sellingprice之間的關係
raw-image







可以觀察到1~5之間和10~50之間分別都呈正相關

因此推測1~5的評分可以對應到10~50

所以這裡把1~5分都乘以10,得到以下結果

raw-image







  • 計算其平均數和眾數
raw-image






step3特徵工程

在這個部分我們將會使用既有的特徵來建立新特徵,讓預測結果更接近實際值


  • 車齡

資料集中有生產年份跟銷售日期兩個欄位,從中可以得知車輛出售時的車齡,對於價格來說車齡可能會比上述兩個欄位更具有影響性

車齡(car_age)跟sellingprice的關係圖如下

raw-image







step4模型訓練


  • 加入新特徵,評估準確度

使用Logistic Regression 模型,特徵選擇'year', 'condition', 'odometer', 'mmr', 'car_age',再次進行交叉驗證以評估準確度,得到結果如下

raw-image

可以觀察到MSE略為下降,但R²也下降一些,表示先前的資料處理和新特徵的加入對於Logistic Regression來說,提升有限


  • 使用其他模型進行訓練

分別使用RandomForest和xgboost進行訓練,得到的結果如下

raw-image


raw-image

可以觀察到兩者的MSE有顯著的提升,擬合也相當良好

Random Forest: 簡單易用,抗過擬合能力強,對異常值不敏感。但由於RF是多棵決策樹組成,每棵樹在訓練過程中是獨立構建的,並且每棵樹都需要消耗記憶體,由於資料量較多,因此會RF較不適合此資料集

XGBoost: 通過梯度提升算法(Gradient Boosting)逐步減少預測誤差,通常比RF更準確,且每次僅存儲當前樹的結果,減少了記憶體的需求。雖然調參較複雜且對極端值較為敏感,但考量到硬體效能,因此選擇XGBoost來進行參數的優化


step5超參數優化

針對XGBoost進行超參數優化,並且用以下4個指標來評估結果

MSE: 用於測量模型的預測值與真實值之間的偏離程度

RMSE: 為MSE的根號,使它與原始數據的單位一致,更容易解釋

MAE: 用於測量預測值與真實值之間的平均差異

R²: 衡量模型解釋變異的比例


  • 評估交叉驗證的結果
raw-image
  • MSE:
    模型預測誤差的平方平均值,對異常值敏感,因此在此資料集中會有較大偏差
  • RMSE:
    RMSE 約為1,400,表示模型在驗證集上的預測值平均與實際售價相差約1400元, 模型的誤差僅佔平均售價的10%左右,屬於合理範圍
  • MAE:
    預測誤差的絕對值平均,對異常值的敏感性較低,因平均誤差約落在930,偏差較小
  • R²:
    R score值接近0.975,這意味著模型可以解釋約 97.5%,未解釋的變異可能來自於隨機誤差或特徵不足。


  • 測試集驗證結果
raw-image

模型的穩定性:

測試集的R²與驗證集非常接近,說明模型在未見過的數據上表現穩定。 測試集和驗證集的
MSE差異很小,顯示模型在不同數據集上的誤差表現一致,表明模型具有良好的泛化能力。
驗證集和測試集的RMSE非常接近,顯示模型在未見數據上的表現穩定

MAE 的值相對 RMSE 更低,表明模型對於大多數數據的預測偏差較小

應用表現:

驗證集和測試集的指標接近,說明模型具備良好的解釋能力
平均誤差(MAE)在1,000 元左右,約佔sellingprice平均值的7.3%,若對於±1,000的偏差可以接受,則此模型已可直接應用





留言
avatar-img
留言分享你的想法!
avatar-img
Yen的數據探索筆記的沙龍
0會員
2內容數
你可能也想看
Thumbnail
「銷貨毛利差異分析」,將毛利差異細分為兩大主軸:「價格差異」與「數量差異」,以下是文字說明: ⸻ 一、毛利差異 1. 價格差異(又稱為單位毛利差異) 進一步拆分為: • 銷貨價格差異:實際售價與預算售價的差異 • 成本價格差異:實際成本與預算成本的差異 • 若為製
Thumbnail
「銷貨毛利差異分析」,將毛利差異細分為兩大主軸:「價格差異」與「數量差異」,以下是文字說明: ⸻ 一、毛利差異 1. 價格差異(又稱為單位毛利差異) 進一步拆分為: • 銷貨價格差異:實際售價與預算售價的差異 • 成本價格差異:實際成本與預算成本的差異 • 若為製
Thumbnail
技術分析(Technical Analysis)是一種透過價格走勢、成交量等市場數據來分析金融資產未來走勢的方法。技術分析的核心理念是「價格包含一切資訊」,也就是說,市場上所有可能影響價格的因素最終都會反映在價格變化上,因此只需分析價格與成交量的變化,就能預測未來走勢。
Thumbnail
技術分析(Technical Analysis)是一種透過價格走勢、成交量等市場數據來分析金融資產未來走勢的方法。技術分析的核心理念是「價格包含一切資訊」,也就是說,市場上所有可能影響價格的因素最終都會反映在價格變化上,因此只需分析價格與成交量的變化,就能預測未來走勢。
Thumbnail
本文探討了MOM(月增率)、QOQ(季增率)和YOY(年增率)的營收分析,並強調在評估企業表現時需綜合考量各類數據。舉例說明即使高月增率,也可能隱藏著實際業績衰退的情況。文章還提供了全面營運分析應包含的要素,如產品組合、地理營運分佈及大型客戶依賴程度,以幫助讀者深入理解財報分析的重要性。
Thumbnail
本文探討了MOM(月增率)、QOQ(季增率)和YOY(年增率)的營收分析,並強調在評估企業表現時需綜合考量各類數據。舉例說明即使高月增率,也可能隱藏著實際業績衰退的情況。文章還提供了全面營運分析應包含的要素,如產品組合、地理營運分佈及大型客戶依賴程度,以幫助讀者深入理解財報分析的重要性。
Thumbnail
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
Thumbnail
本研究使用了盤中逐筆成交資料(Tick-by-tick Data)來進行股票價格的預測,並討論了馬可夫鏈模型和擴散核模型在這方面的應用。研究結果表明,大多數股票的未來三秒價格可以在少於22個狀態中找到,顯示了交易價格的低不確定性。此外,研究還發現波動性更大和價格更高的股票更難以準確預測。
Thumbnail
文章描述了觀察者如何從銷售數量的日線圖中,以及通過歸納統計和經濟理論進行解讀,透過時間統計分析消費者的行為特徵,以及角度數據如何關注臺灣市場的消費。
Thumbnail
文章描述了觀察者如何從銷售數量的日線圖中,以及通過歸納統計和經濟理論進行解讀,透過時間統計分析消費者的行為特徵,以及角度數據如何關注臺灣市場的消費。
Thumbnail
交易回測是執行各種交易重要一環,這裡主要採用自行開發的Excel回測工具進行歷史資料模擬各種市場情境,包括事件觸發、MSIC季度調整、聯準會升降息以及技術籌碼面的變化。透過反覆的回測過程,可以深入瞭解各種情況下的交易策略執行情況,並逐步優化其交易策略。這有助於建立交易的紀律性,
Thumbnail
交易回測是執行各種交易重要一環,這裡主要採用自行開發的Excel回測工具進行歷史資料模擬各種市場情境,包括事件觸發、MSIC季度調整、聯準會升降息以及技術籌碼面的變化。透過反覆的回測過程,可以深入瞭解各種情況下的交易策略執行情況,並逐步優化其交易策略。這有助於建立交易的紀律性,
Thumbnail
本文介紹過去金融歷史上出現的價格模型演變,盡量用簡潔的理論敘述呈現。重點包括隨機漫步理論、馬可夫模型、資本資產定價模型、有效市場假說、套利定價理論、分形市場假說、混沌理論、複雜系統與自組織理論、行為金融學以及MPT現代投資組合理論與馬可維茲。
Thumbnail
本文介紹過去金融歷史上出現的價格模型演變,盡量用簡潔的理論敘述呈現。重點包括隨機漫步理論、馬可夫模型、資本資產定價模型、有效市場假說、套利定價理論、分形市場假說、混沌理論、複雜系統與自組織理論、行為金融學以及MPT現代投資組合理論與馬可維茲。
Thumbnail
期貨市場是金融市場中一個重要且具有高度波動性的領域。進行有效的期貨市場分析對於交易者和投資者來說至關重要。在本文中,我們將介紹一些常用的期貨市場分析工具和技巧,以幫助您更好地理解和應對期貨市場。 1. 基本面分析 基本面分析是評估期貨市場的重要指標和基本因素,以預測價格和市場趨勢的方法。以下是一些常
Thumbnail
期貨市場是金融市場中一個重要且具有高度波動性的領域。進行有效的期貨市場分析對於交易者和投資者來說至關重要。在本文中,我們將介紹一些常用的期貨市場分析工具和技巧,以幫助您更好地理解和應對期貨市場。 1. 基本面分析 基本面分析是評估期貨市場的重要指標和基本因素,以預測價格和市場趨勢的方法。以下是一些常
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News