【數據分析】資料集Amazon Prime Userbase Dataset探索

更新於 2025/01/13發佈於 2024/12/25閱讀時間約 11 分鐘

資料集來源 : kaggle

對於電商來說，訂閱模式已成為許多企業的重要運營方式，訂閱資料不僅記錄了用戶的購買行為，也反映了用戶對平台的使用頻率與互動習慣。訂閱方式的變化可能會影響Amazon Prime 平台的營收甚至未來的成長，因此若能掌握影響訂閱模式的因素，預測使用者的偏好，能夠更精準的行銷、針對偏好進行產品或服務的優化，以促進業務的增長。

預測使用者訂閱模式

目標:透過預測模型，找出影響訂閱方案的變數，提高客戶的保留率

流程:

1.資料預處理：清理和準備資料集以進行分析。

2.EDA：透過視覺化和統計來了解資料

3.模型訓練：評估不同的機器學習模型，選擇表現最佳的模型

4.超參數優化 : 找出模型最佳的超參數

1.資料預處理

step1 載入資料集

從kaggle取得公開資料

step2 資料前處理

處理遺漏值:此專案無缺失值

轉換資料格式:將日期格式轉換為數值;將object格式轉換為int或float

step3 建立baseline1

這裡使用原始格式為數值的特徵來訓練基本模型，提供一個簡單的參考點，用於評估後續新增的特徵或模型的效果是否有明顯提升

以下使用Decision Tree來訓練，優點是解釋性高，對於少量資料表現穩定

從上面結果可知，在僅選擇少數特徵的前提下，透過基本模型，可以得到約5成的準確度。

因此若後續對資料的處理讓準確度低於51%，則代表該處理對提升預測的準確度是沒有幫助的

2.EDA資料探索

資料探索:可以初步認識資料，並確認資料間的關係

目的:由於要進行使用者訂閱傾向的預測，因此需要查看其他欄位跟訂閱計畫(Subscription Plan)之間的關係，並將結果視覺化

檢查重複值
檢查是否有重複值，如果有則將其移除

觀察Feedback/Ratings和Subscription Plan的關係

使用密度圖，以連續平滑的曲線表示變數的分布

可觀察到Annual和Monthly的分布大致相同，其中Annual比Monthly略高一些，評分結果集中在3至5之間

觀察Customer Support Interactions和Subscription Plan的關係

Annual和Monthly的分布大致相同，用戶的互動次數落在0到10次之間

查看類別欄位跟 Subscription Plan 的關係

透過直方圖來觀察以下欄位

Payment Information中顯示的支付方式大致相同

Gender代表性別比例差不多

Renewal Status中兩者間差異不大

訂閱方案選擇Annual的人似乎稍微多一點點

選擇不同訂閱方案的人購物喜好似乎不太相同，可以繼續觀察

對於喜好部分各有些許不同，可以繼續探索

在Devices Used部分差異不大

Engagement Metrics也無顯著差異

從上面的分析可以發現，無論是年訂閱還是月訂閱，目前的特徵在兩者之間沒有顯著的差異，接下來可以使用特徵工程的方式來新增特徵，並觀察新的特徵在兩者間是否有差異

特徵工程

這個步驟想在對這個資料集做兩件事

1.建立新特徵 : 查看不同月份的訂閱是否對Subscription Plan有不同的偏好

從'Membership Start Date'取出月份，並轉換格式

2.將類別欄位轉換成數值:由於模型只接受數值類型的資料，因此非數值型的資料都需先做轉換或移除

Ordinal Encoding

將類別轉為有順序性的數值，適合有順序性的類別

帶有順序性的'usage frequency'、'engagement metrics'使用此方式

One-Hot Encoding

為每個類別生成一個二進位欄位，不會引入類別間的隱含順序關係

其餘沒有順序關係的欄位使用此方法

查看相關性

皮爾森積相關係數用於度量兩組數據的變量X和Y之間的線性相關的程度，越趨近於0代表兩者間的相關性越小

這裡會計算相關性後繪製成熱力圖，選擇跟Subscription Plan相關性較大的特徵後，再進行下一步的模型訓練

從相關係數可以得知，Subscription Plan跟其他特徵的相關性並不高

可以從這裡推測這份資料集可能無法得到準確的預測結果

3.建立模型

選擇相關性較高的特徵來訓練，並將特徵拆分成測試集和訓練集

step1 訓練模型

選擇跟Baseline1相同得模型Decision Tree，來查看加入先前的非數值欄位作為特徵後，是否能提高準確度，結果如下:

選擇的特徵經過訓練後可以得到約53%的準確率，表示這份資料集似乎不適合用來進行預測

step2 加入新特徵

加入之前建立的新特徵'月份'後，模型同樣選擇Decision Tree，重新訓練並查看結果

加入新的特徵後準確度沒有提升，因此將該特徵移除

step3 加入其他模型

利用其他模型進行分析與Decision Tree比較，使用以下模型

logistic regression

SVM

Random Forest

KNN

從上面結果可觀察到，表現最好的模型為Decision Tree，且所有模型的準確度都落在50%左右，接下來將調整超參數，來觀察是否能提高預測結果

4.超參數調整

step1 設定超參數

利用Random Search隨機選擇參數組合進行嘗試，找出上述模型中相對較佳的組合

step2 訓練模型並進行預測

對每個優化後的模型進行訓練，並得到以下準確度

經過優化後，可以看到多數模型的預測準確度都有些許的提升，而最佳的模型依然為Decision Tree，其準確度約53.8%

從預測結果來看，5成多的準確度代表此份資料集不適用於訂閱模式的預測

資料分群

訂閱資料記錄了用戶與平台的互動內容，是理解用戶行為、價值和需求的資源。透過分群分析，可以將不同訂閱模式和用戶行為分成多個具有特徵的群體，從而實現以下目標：

識別高價值用戶：找出那些頻繁續訂或選擇高價訂閱計劃的核心客戶，進一步提供優惠或專屬服務。
預測流失風險：定位訂閱即將到期且活躍度下降的用戶，主動推送優惠，提高續訂率。
精準行銷：根據不同用戶群的需求特徵，制定個性化行銷策略，提升促銷活動的效果。
優化產品策略：分析用戶的偏好，為產品升級和服務改進提供數據支撐。

觀察以下欄位定義

User ID : 使用者ID
Name : 名字
Email Address : 電子郵件地址
Username : 暱稱
Date of Birth : 生日
Gender : 性別
Location : 住址
Membership Start Date : 訂閱起日
Membership End Date : 訂閱訖日
Subscription Plan : 訂閱方案
Payment Information : 付款方式
Renewal Status : 續訂方式
Usage Frequency : 使用頻率
Purchase History : 購買紀錄
Favorite Genres : 購物偏好
Devices Used : 登入/使用設備
Engagement Metrics : 參與程度
Feedback/Ratings : 評分
Customer Support Interactions : 客服互動次數

由上面欄位可以觀察到，資料涵蓋了具體的行為時間記錄、行為頻率、具有商業價值的行為，因此接下來會採取RMF模型來做資料分群

RFM 分析的標準定義：

依據購買頻率 (Frequency)

最近一次購買時間 (Recency)

購買金額 (Monetary)

在這份資料中，給予三個指標定義如下:

活躍度（Recency）:使用Membership End Date，距離到期日月久，給予較高的分數
忠誠度（Frequency）:Usage Frequency中使用頻率越高，給予越高的分數
消費金額（Monetary）:Subscription Plan中，年訂閱分數較高，月訂閱分數較低

FRM分析

利用直方圖，查看三個指標在不同等級各自所占的比例:

定義顧客分群

將指標數值轉化為0或1，使其呈現二元的狀態
- 定義Recency超過3的為1，其他為0
- 定義Frequency是3的為1，其他為0
- 定義Monetary是3的為1，其他為0

組合欄位並定義顧客分類
- 111: 最重要的顧客
- 110: 未來有消費潛力的顧客
- 101: 消費頻率較低的顧客
- 100: 新顧客
- 011: 近期流失的重要顧客
- 010: 普通顧客
- 001: 流失掉的高消費顧客
- 000: 非客群
根據組合後的欄位來替客戶進行分級
- 111: High
- 110: High
- 101: Medium
- 100: Medium
- 011: Medium
- 010: Medium
- 001: Low
- 000: Low
查看分群後不同級別的顧客所佔的比例，並繪製成長條圖

將顧客重新分群後，可以觀察到客戶分級後屬於Medium比例最高，這群人是應該要重點發展的對象，讓High的比例增加
High的比例最低，這些客戶可能需要加強客戶關係的維持，讓其願意持續使用本服務

LOW的比例偏高，代表有需多客戶屬於非活躍用戶，可能要檢討是什麼原因讓使用者申訂閱後卻使用意願不高

觀察加入不同特徵後的資料分布

查看在不同年齡，不同群的客戶所佔得數量

可觀察到用戶數量在30歲後隨年齡遞減，但70歲後反而遞增
年輕用戶似乎更常瀏覽網站，高價值客戶比例較高而低價值比例較低
90歲以上的使用者人數反而上升，這跟我們平時了解到的有些不同，後續可以觀察原因為何，是否為異常值
跟20歲以下比例極低，可以嘗試培養這些年輕用戶成為會員

0會員

2內容數

留言

留言分享你的想法！

你可能也想看

Google News 追蹤

客戶成功茶水間

2024/06/27

2024客戶成功巡禮：全球視角-3-

■ 本集重點 •客戶成功平台市場規模 •創業家最常犯的 Go-to-Market 錯誤 •客戶成功部門與 AI/生成式AI 在工作上的共存

#客戶成功 #customersuccess #全球

詹翔霖的沙龍

2024/06/09

同理心地圖TA消費者行為分析

消費者研究，可以了解以下：瞭解消費者行為、能力、態度，了解消費者本身有哪些限制確認消費者使用情境、需求，以期產品最終符合消費者期許的目標讓設計決策能有依據，並非猜測或個人喜好，可以回朔研究結果確認專案目標，以利後續評估產品成敗研究消費者基本特徵，運用顧客標籤進行分眾常

#目標客戶 #同理心地圖TA #將危機化轉機詹翔霖副教授

AlxwuEcoaching 開店選品物流亞馬遜FBA 廣告投放技巧亞馬遜電商教學的沙龍

2024/06/05

你敢挑戰日本Amazon的機會與挑戰嗎？探索市場、解答疑惑！

當你想到日本Amazon這個全球電商巨頭時，有沒有想過自己也能在這個競爭激烈的市場中分一杯羹？在這片充滿無限可能和未知挑戰的電子商務天地裏，無論你是初創企業還是老牌公司，機會與挑戰並存。究竟該如何踏出這一步？本文將和你一起探索日本亞馬遜帶來的機會與挑戰，並會和你探索市場和解答有關日本Amazon的常

#日本 #亞馬遜 #電商