【數據分析】汽車銷售預測

更新於 發佈於 閱讀時間約 8 分鐘


資料源:kaggle

的目的是從中提取有價值的資訊,為市場分析、業務決策及預測模型的開發提供支持。該資料集資料如下:

車輛詳細資訊:包括每輛車的具體信息,例如其製造商、型號、裝飾和製造年份。

交易資訊:提供有關銷售交易的見解,包括銷售價格和銷售日期。

市場趨勢:MMR 值提供每輛車市場價值的估計,可以分析市場趨勢和波動。

狀況和里程:包含車輛狀況及其里程表讀數的數據,可以分析這些因素如何影響銷售價格。

其中,價格預測是分析的重要一環,因為準確的價格預測不僅能提升經銷商的市場競爭力,還有助於優化庫存管理、支持買賣決策,並輔助貸款與保險業務的發展。同時,預測價格能揭示市場波動趨勢,幫助行業參與者制定更有效的定價策略,實現營收增長。


價格預測

step1 資料前處理暨建立基線版本

1.從kaggle載入資料集

2.缺失值填補

  • 填補方式:
    • 缺失值較多的欄位依照比例進行填補
    • 缺失值較少的直接以眾數來填補

3.建立baseline1

  • 使用'year', 'condition', 'odometer', 'mmr'等4個特徵來建立baseline1
  • 由於以上4個特徵對sellingprice並非皆呈現線性關係,因此模型選擇Logistic Regression來進行評估,結果如下


raw-image

MAS:

MSE 是預測值與實際值之間差值的平方的平均值。其單位與目標變量(sellingprice)的平方單位一致。

MSE數值較大,表明預測值與實際值之間仍有一定的誤差。可能是價格範圍的落差大所造成

MSE 標準差較小表示模型在不同的交叉驗證中誤差分布較穩定

R²:

R² 分數接近 1,總變異中有95%可被自變數解釋,擬合效果良好。

R² 的標準差很小,說明模型在交叉驗證的不同折中的性能非常穩定,表現一致。


step2 資料探索


  • 由於MSE值非常大,表示可能被離群值所影響,因此先檢查離群值
raw-image

1. Year (年份)

分佈情況:年份的中位數在 2010 年左右,且大部分資料集中在 2000 年以後。

異常值:1985-1995 年份附近有一些異常值,可能代表較舊的車輛數據。

2. Condition (條件/狀態)

分佈情況:值介於 0 到 50 之間,分佈比較均勻,中位數約在 30 左右。

異常值:這裡似乎沒有顯著的異常值。

3. Odometer (里程數)

分佈情況:絕大多數數據集中在 0 至約 20 萬公里範圍內,但長鬚線顯示有較大的擴展範圍。

異常值:一些極高的值(超過 40 萬公里)被視為異常值,可能需要進一步檢查是否合理或是否為數據錯誤。

4. MMR (市場價格)

分佈情況:大部分數據集中在 0 至約 25,000 的範圍內,分佈高度偏右。

異常值:有不少數據超過 100,000,甚至接近 175,000,這些可能是高端車輛或不合理的數據。


  • z score是一種使用標準化尺度來衡量每個資料值與平均數之差距的方法,以下用圖表來表示sellingprice的分數分布狀態
raw-image







標準差超過5的佔全部的1453,約為0.26%

我們嘗試將標準差超過5的資料移除,看是否能降低MSE值


  • 查看condition和sellingprice之間的關係
raw-image







可以觀察到1~5之間和10~50之間分別都呈正相關

因此推測1~5的評分可以對應到10~50

所以這裡把1~5分都乘以10,得到以下結果

raw-image







  • 計算其平均數和眾數
raw-image






step3特徵工程

在這個部分我們將會使用既有的特徵來建立新特徵,讓預測結果更接近實際值


  • 車齡

資料集中有生產年份跟銷售日期兩個欄位,從中可以得知車輛出售時的車齡,對於價格來說車齡可能會比上述兩個欄位更具有影響性

車齡(car_age)跟sellingprice的關係圖如下

raw-image







step4模型訓練


  • 加入新特徵,評估準確度

使用Logistic Regression 模型,特徵選擇'year', 'condition', 'odometer', 'mmr', 'car_age',再次進行交叉驗證以評估準確度,得到結果如下

raw-image

可以觀察到MSE略為下降,但R²也下降一些,表示先前的資料處理和新特徵的加入對於Logistic Regression來說,提升有限


  • 使用其他模型進行訓練

分別使用RandomForest和xgboost進行訓練,得到的結果如下

raw-image


raw-image

可以觀察到兩者的MSE有顯著的提升,擬合也相當良好

Random Forest: 簡單易用,抗過擬合能力強,對異常值不敏感。但由於RF是多棵決策樹組成,每棵樹在訓練過程中是獨立構建的,並且每棵樹都需要消耗記憶體,由於資料量較多,因此會RF較不適合此資料集

XGBoost: 通過梯度提升算法(Gradient Boosting)逐步減少預測誤差,通常比RF更準確,且每次僅存儲當前樹的結果,減少了記憶體的需求。雖然調參較複雜且對極端值較為敏感,但考量到硬體效能,因此選擇XGBoost來進行參數的優化


step5超參數優化

針對XGBoost進行超參數優化,並且用以下4個指標來評估結果

MSE: 用於測量模型的預測值與真實值之間的偏離程度

RMSE: 為MSE的根號,使它與原始數據的單位一致,更容易解釋

MAE: 用於測量預測值與真實值之間的平均差異

R²: 衡量模型解釋變異的比例


  • 評估交叉驗證的結果
raw-image
  • MSE:
    模型預測誤差的平方平均值,對異常值敏感,因此在此資料集中會有較大偏差
  • RMSE:
    RMSE 約為1,400,表示模型在驗證集上的預測值平均與實際售價相差約1400元, 模型的誤差僅佔平均售價的10%左右,屬於合理範圍
  • MAE:
    預測誤差的絕對值平均,對異常值的敏感性較低,因平均誤差約落在930,偏差較小
  • R²:
    R score值接近0.975,這意味著模型可以解釋約 97.5%,未解釋的變異可能來自於隨機誤差或特徵不足。


  • 測試集驗證結果
raw-image

模型的穩定性:

測試集的R²與驗證集非常接近,說明模型在未見過的數據上表現穩定。 測試集和驗證集的
MSE差異很小,顯示模型在不同數據集上的誤差表現一致,表明模型具有良好的泛化能力。
驗證集和測試集的RMSE非常接近,顯示模型在未見數據上的表現穩定

MAE 的值相對 RMSE 更低,表明模型對於大多數數據的預測偏差較小

應用表現:

驗證集和測試集的指標接近,說明模型具備良好的解釋能力
平均誤差(MAE)在1,000 元左右,約佔sellingprice平均值的7.3%,若對於±1,000的偏差可以接受,則此模型已可直接應用





留言0
查看全部
avatar-img
發表第一個留言支持創作者!
資料集來源 : kaggle 資料說明 : 該資料集旨在代表各種 Prime 用戶,包括不同的人口統計資料、訂閱計劃和使用模式。它旨在促進對用戶行為、偏好以及與 Amazon Prime 平台的互動的分析和洞察。 預測使用者訂閱模式 目標:透過預測模型,找出影響訂閱方案的變數,提高客戶的保留率
資料集來源 : kaggle 資料說明 : 該資料集旨在代表各種 Prime 用戶,包括不同的人口統計資料、訂閱計劃和使用模式。它旨在促進對用戶行為、偏好以及與 Amazon Prime 平台的互動的分析和洞察。 預測使用者訂閱模式 目標:透過預測模型,找出影響訂閱方案的變數,提高客戶的保留率
你可能也想看
Google News 追蹤
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在和不同產業的產品經理交流時,滿多人提到會訂出產品指標,但也有公司不看產品指標,只看功能有沒有符合客戶使用情境,因此這篇想整理我對產品數據的初步理解,以及整理幾個可能需要看指標的產品。
Thumbnail
#週一推薦 #行銷人必學 數據洞察行銷的專場分享 面對瞬息萬變的數據行銷時代,您準備好了嗎? 在我眼中,沒有難做的市場,只有看不見的藍海 而準確的線上數據越來越能夠協助我們洞悉商機 #消費者旅程的洞察 隨著第三方cookie消失|各大品牌和電商積極收集從公領域轉到私領域流量的數據,如果線上和
Thumbnail
EP24 精華重點: 1.做好市場調查和分析,先找到目標客群,再開發產品。 2.透過最小可行性產品(MVP)模式,先做小批量產品,並藉由問卷、試吃會等方式了解消費者反應,驗證市場需求。 3.親身實地面對顧客,了解真實反應和需求,做為後續產品改良的參考。 4.產品差異化很重要
Thumbnail
不要再隨便訂價了!透過「高端定價」讓產品散發出耀眼光芒,吸引高端客戶投資自己的價值。科學發現價格能影響人們對產品的感知價值,利用合適的高價位可以吸引更多理想客戶。
Thumbnail
這篇文章涵蓋了影響二手車商高價收購中古車的各種因素,以及提供了幾個成功的收購案例。主題包括高價收購的實際性、廣告認知問題、臺灣中古車市場的狀況、條件達到高價收購的基本4大要素和非車況額外5個因素等。文章不僅扎實解釋了這些概念,還提供了具體的參考案例,幫助讀者更好地瞭解高價收購中古車的實際情況。
Thumbnail
1.最小可行性產品(MVP)開發 一開始不必追求完美的產品,應先打造最小可行的產品上市 制定合理的初始生產量,考慮成本、現金流和效期等因素 善用閒置資源,降低固定成本 2.持續收集用戶回饋並快速調整 透過展會、市集、線上問卷等管道收集用戶回饋 重視並快速回應用戶回饋
Thumbnail
在當今數位化的商業環境中,新商品開發已經不再僅依賴傳統的市場調查和直覺決策。隨著大數據和人工智慧技術的迅速發展,數據驅動的開發策略成為推動創新和保持市場競爭力的關鍵。本文將探討如何利用數據驅動的方法來優化新商品開發流程,從而更有效地滿足消費者需求,提高產品成功率。
Thumbnail
本文深入探討中古車估價的專業分析,提供清晰的指南和建議,重點包括影響估價的因素、估價方法和提高估價的方法。此外,文章分享了常見的二手車估價問題和相關閱讀文章。
Thumbnail
本文分享瞭如何觀察後臺廣告數據,並根據數據分析來進行廣告投放的執行過程。作者強調了轉換率與轉換成本在不同產業與產品價格帶下的影響,並提到了如何根據數據來選擇最適合的廣告版本進行投放。文章結合作者個人觀點和經驗進行了廣告數據分析,值得一讀。
Thumbnail
在當今數位時代,數位行銷已成為企業推廣與品牌建立的關鍵策略之一。這種行銷形式不僅包含網際網路行銷,還擁有多元的活動與策略集合,如搜尋引擎、社群媒體、官方網站、部落格、線上廣告投放等。本文將從行銷顧問的角度,探討數位行銷工作的多樣性內容,並提供對於想踏足這個領域的專業人士的建議。 數位行銷工作內容概
Thumbnail
大家好,我是woody,是一名料理創作者,非常努力地在嘗試將複雜的料理簡單化,讓大家也可以體驗到料理的樂趣而我也非常享受料理的過程,今天想跟大家聊聊,除了料理本身,料理創作背後的成本。
Thumbnail
哈囉~很久沒跟各位自我介紹一下了~ 大家好~我是爺恩 我是一名圖文插畫家,有追蹤我一段時間的應該有發現爺恩這個品牌經營了好像.....快五年了(汗)時間過得真快!隨著時間過去,創作這件事好像變得更忙碌了,也很開心跟很多厲害的創作者以及廠商互相合作幫忙,還有最重要的是大家的支持與陪伴🥹。  
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
在和不同產業的產品經理交流時,滿多人提到會訂出產品指標,但也有公司不看產品指標,只看功能有沒有符合客戶使用情境,因此這篇想整理我對產品數據的初步理解,以及整理幾個可能需要看指標的產品。
Thumbnail
#週一推薦 #行銷人必學 數據洞察行銷的專場分享 面對瞬息萬變的數據行銷時代,您準備好了嗎? 在我眼中,沒有難做的市場,只有看不見的藍海 而準確的線上數據越來越能夠協助我們洞悉商機 #消費者旅程的洞察 隨著第三方cookie消失|各大品牌和電商積極收集從公領域轉到私領域流量的數據,如果線上和
Thumbnail
EP24 精華重點: 1.做好市場調查和分析,先找到目標客群,再開發產品。 2.透過最小可行性產品(MVP)模式,先做小批量產品,並藉由問卷、試吃會等方式了解消費者反應,驗證市場需求。 3.親身實地面對顧客,了解真實反應和需求,做為後續產品改良的參考。 4.產品差異化很重要
Thumbnail
不要再隨便訂價了!透過「高端定價」讓產品散發出耀眼光芒,吸引高端客戶投資自己的價值。科學發現價格能影響人們對產品的感知價值,利用合適的高價位可以吸引更多理想客戶。
Thumbnail
這篇文章涵蓋了影響二手車商高價收購中古車的各種因素,以及提供了幾個成功的收購案例。主題包括高價收購的實際性、廣告認知問題、臺灣中古車市場的狀況、條件達到高價收購的基本4大要素和非車況額外5個因素等。文章不僅扎實解釋了這些概念,還提供了具體的參考案例,幫助讀者更好地瞭解高價收購中古車的實際情況。
Thumbnail
1.最小可行性產品(MVP)開發 一開始不必追求完美的產品,應先打造最小可行的產品上市 制定合理的初始生產量,考慮成本、現金流和效期等因素 善用閒置資源,降低固定成本 2.持續收集用戶回饋並快速調整 透過展會、市集、線上問卷等管道收集用戶回饋 重視並快速回應用戶回饋
Thumbnail
在當今數位化的商業環境中,新商品開發已經不再僅依賴傳統的市場調查和直覺決策。隨著大數據和人工智慧技術的迅速發展,數據驅動的開發策略成為推動創新和保持市場競爭力的關鍵。本文將探討如何利用數據驅動的方法來優化新商品開發流程,從而更有效地滿足消費者需求,提高產品成功率。
Thumbnail
本文深入探討中古車估價的專業分析,提供清晰的指南和建議,重點包括影響估價的因素、估價方法和提高估價的方法。此外,文章分享了常見的二手車估價問題和相關閱讀文章。
Thumbnail
本文分享瞭如何觀察後臺廣告數據,並根據數據分析來進行廣告投放的執行過程。作者強調了轉換率與轉換成本在不同產業與產品價格帶下的影響,並提到了如何根據數據來選擇最適合的廣告版本進行投放。文章結合作者個人觀點和經驗進行了廣告數據分析,值得一讀。
Thumbnail
在當今數位時代,數位行銷已成為企業推廣與品牌建立的關鍵策略之一。這種行銷形式不僅包含網際網路行銷,還擁有多元的活動與策略集合,如搜尋引擎、社群媒體、官方網站、部落格、線上廣告投放等。本文將從行銷顧問的角度,探討數位行銷工作的多樣性內容,並提供對於想踏足這個領域的專業人士的建議。 數位行銷工作內容概