資料集來源 : kaggle
對於電商來說,訂閱模式已成為許多企業的重要運營方式,訂閱資料不僅記錄了用戶的購買行為,也反映了用戶對平台的使用頻率與互動習慣。訂閱方式的變化可能會影響Amazon Prime 平台的營收甚至未來的成長,因此若能掌握影響訂閱模式的因素,預測使用者的偏好,能夠更精準的行銷、針對偏好進行產品或服務的優化,以促進業務的增長。
目標:透過預測模型,找出影響訂閱方案的變數,提高客戶的保留率
流程:
1.資料預處理:清理和準備資料集以進行分析。
2.EDA:透過視覺化和統計來了解資料
3.模型訓練:評估不同的機器學習模型,選擇表現最佳的模型
4.超參數優化 : 找出模型最佳的超參數
step1 載入資料集
從kaggle取得公開資料
step2 資料前處理
處理遺漏值:此專案無缺失值
轉換資料格式:將日期格式轉換為數值;將object格式轉換為int或float
step3 建立baseline1
這裡使用原始格式為數值的特徵來訓練基本模型,提供一個簡單的參考點,用於評估後續新增的特徵或模型的效果是否有明顯提升
以下使用Decision Tree來訓練,優點是解釋性高,對於少量資料表現穩定
從上面結果可知,在僅選擇少數特徵的前提下,透過基本模型,可以得到約5成的準確度。
因此若後續對資料的處理讓準確度低於51%,則代表該處理對提升預測的準確度是沒有幫助的
2.EDA資料探索
資料探索:可以初步認識資料,並確認資料間的關係
目的:由於要進行使用者訂閱傾向的預測,因此需要查看其他欄位跟訂閱計畫(Subscription Plan)之間的關係,並將結果視覺化
使用密度圖,以連續平滑的曲線表示變數的分布
可觀察到Annual和Monthly的分布大致相同,其中Annual比Monthly略高一些,評分結果集中在3至5之間
Annual和Monthly的分布大致相同,用戶的互動次數落在0到10次之間
透過直方圖來觀察以下欄位
Payment Information中顯示的支付方式大致相同
Gender代表性別比例差不多
Renewal Status中兩者間差異不大
訂閱方案選擇Annual的人似乎稍微多一點點
選擇不同訂閱方案的人購物喜好似乎不太相同,可以繼續觀察
對於喜好部分各有些許不同,可以繼續探索
在Devices Used部分差異不大
Engagement Metrics也無顯著差異
從上面的分析可以發現,無論是年訂閱還是月訂閱,目前的特徵在兩者之間沒有顯著的差異,接下來可以使用特徵工程的方式來新增特徵,並觀察新的特徵在兩者間是否有差異
特徵工程
這個步驟想在對這個資料集做兩件事
1.建立新特徵 : 查看不同月份的訂閱是否對Subscription Plan有不同的偏好
2.將類別欄位轉換成數值:由於模型只接受數值類型的資料,因此非數值型的資料都需先做轉換或移除
將類別轉為有順序性的數值,適合有順序性的類別
帶有順序性的'usage frequency'、'engagement metrics'使用此方式
為每個類別生成一個二進位欄位,不會引入類別間的隱含順序關係
其餘沒有順序關係的欄位使用此方法
查看相關性
皮爾森積相關係數用於度量兩組數據的變量X和Y之間的線性相關的程度,越趨近於0代表兩者間的相關性越小
這裡會計算相關性後繪製成熱力圖,選擇跟Subscription Plan相關性較大的特徵後,再進行下一步的模型訓練
從相關係數可以得知,Subscription Plan跟其他特徵的相關性並不高
可以從這裡推測這份資料集可能無法得到準確的預測結果
3.建立模型
選擇相關性較高的特徵來訓練,並將特徵拆分成測試集和訓練集
step1 訓練模型
選擇跟Baseline1相同得模型Decision Tree,來查看加入先前的非數值欄位作為特徵後,是否能提高準確度,結果如下:
選擇的特徵經過訓練後可以得到約53%的準確率,表示這份資料集似乎不適合用來進行預測
step2 加入新特徵
加入之前建立的新特徵'月份'後,模型同樣選擇Decision Tree,重新訓練並查看結果
加入新的特徵後準確度沒有提升,因此將該特徵移除
step3 加入其他模型
利用其他模型進行分析與Decision Tree比較,使用以下模型
logistic regression
SVM
Random Forest
KNN
從上面結果可觀察到,表現最好的模型為Decision Tree,且所有模型的準確度都落在50%左右,接下來將調整超參數,來觀察是否能提高預測結果
4.超參數調整
step1 設定超參數
利用Random Search隨機選擇參數組合進行嘗試,找出上述模型中相對較佳的組合
step2 訓練模型並進行預測
對每個優化後的模型進行訓練,並得到以下準確度
經過優化後,可以看到多數模型的預測準確度都有些許的提升,而最佳的模型依然為Decision Tree,其準確度約53.8%
從預測結果來看,5成多的準確度代表此份資料集不適用於訂閱模式的預測
訂閱資料記錄了用戶與平台的互動內容,是理解用戶行為、價值和需求的資源。透過分群分析,可以將不同訂閱模式和用戶行為分成多個具有特徵的群體,從而實現以下目標:
觀察以下欄位定義
由上面欄位可以觀察到,資料涵蓋了具體的行為時間記錄、行為頻率、具有商業價值的行為,因此接下來會採取RMF模型來做資料分群
RFM 分析的標準定義:
依據購買頻率 (Frequency)
最近一次購買時間 (Recency)
購買金額 (Monetary)
在這份資料中,給予三個指標定義如下:
利用直方圖,查看三個指標在不同等級各自所占的比例:
定義顧客分群
將顧客重新分群後,可以觀察到客戶分級後屬於Medium比例最高,這群人是應該要重點發展的對象,讓High的比例增加
High的比例最低,這些客戶可能需要加強客戶關係的維持,讓其願意持續使用本服務
LOW的比例偏高,代表有需多客戶屬於非活躍用戶,可能要檢討是什麼原因讓使用者申訂閱後卻使用意願不高
觀察加入不同特徵後的資料分布
查看在不同年齡,不同群的客戶所佔得數量