檢舉內容
檢舉內容

【數據分析】資料集Amazon Prime Userbase Dataset探索

更新於 發佈於 閱讀時間約 11 分鐘

資料集來源 : kaggle

對於電商來說,訂閱模式已成為許多企業的重要運營方式,訂閱資料不僅記錄了用戶的購買行為,也反映了用戶對平台的使用頻率與互動習慣。訂閱方式的變化可能會影響Amazon Prime 平台的營收甚至未來的成長,因此若能掌握影響訂閱模式的因素,預測使用者的偏好,能夠更精準的行銷、針對偏好進行產品或服務的優化,以促進業務的增長。

預測使用者訂閱模式

目標:透過預測模型,找出影響訂閱方案的變數,提高客戶的保留率

流程:

1.資料預處理:清理和準備資料集以進行分析。

2.EDA:透過視覺化和統計來了解資料

3.模型訓練:評估不同的機器學習模型,選擇表現最佳的模型

4.超參數優化 : 找出模型最佳的超參數


1.資料預處理

step1 載入資料集

從kaggle取得公開資料

step2 資料前處理

處理遺漏值:此專案無缺失值

轉換資料格式:將日期格式轉換為數值;將object格式轉換為int或float

step3 建立baseline1

這裡使用原始格式為數值的特徵來訓練基本模型,提供一個簡單的參考點,用於評估後續新增的特徵或模型的效果是否有明顯提升

以下使用Decision Tree來訓練,優點是解釋性高,對於少量資料表現穩定

raw-image
zoomable



從上面結果可知,在僅選擇少數特徵的前提下,透過基本模型,可以得到約5成的準確度。

因此若後續對資料的處理讓準確度低於51%,則代表該處理對提升預測的準確度是沒有幫助的


2.EDA資料探索

資料探索:可以初步認識資料,並確認資料間的關係

目的:由於要進行使用者訂閱傾向的預測,因此需要查看其他欄位跟訂閱計畫(Subscription Plan)之間的關係,並將結果視覺化


  • 檢查重複值
    檢查是否有重複值,如果有則將其移除
raw-image
zoomable







  • 觀察Feedback/Ratings和Subscription Plan的關係

使用密度圖,以連續平滑的曲線表示變數的分布

raw-image
zoomable

可觀察到Annual和Monthly的分布大致相同,其中Annual比Monthly略高一些,評分結果集中在3至5之間





  • 觀察Customer Support Interactions和Subscription Plan的關係
raw-image
zoomable

Annual和Monthly的分布大致相同,用戶的互動次數落在0到10次之間




  • 查看類別欄位跟 Subscription Plan 的關係

透過直方圖來觀察以下欄位

raw-image
zoomable

Payment Information中顯示的支付方式大致相同



raw-image
zoomable


Gender代表性別比例差不多




raw-image
zoomable


Renewal Status中兩者間差異不大




raw-image
zoomable

訂閱方案選擇Annual的人似乎稍微多一點點





raw-image
zoomable

選擇不同訂閱方案的人購物喜好似乎不太相同,可以繼續觀察




raw-image
zoomable


對於喜好部分各有些許不同,可以繼續探索




raw-image
zoomable


在Devices Used部分差異不大





raw-image
zoomable

Engagement Metrics也無顯著差異





從上面的分析可以發現,無論是年訂閱還是月訂閱,目前的特徵在兩者之間沒有顯著的差異,接下來可以使用特徵工程的方式來新增特徵,並觀察新的特徵在兩者間是否有差異

特徵工程

這個步驟想在對這個資料集做兩件事

1.建立新特徵 : 查看不同月份的訂閱是否對Subscription Plan有不同的偏好

  • 從'Membership Start Date'取出月份,並轉換格式


2.將類別欄位轉換成數值:由於模型只接受數值類型的資料,因此非數值型的資料都需先做轉換或移除

  • Ordinal Encoding

將類別轉為有順序性的數值,適合有順序性的類別

帶有順序性的'usage frequency'、'engagement metrics'使用此方式

  • One-Hot Encoding

為每個類別生成一個二進位欄位,不會引入類別間的隱含順序關係

其餘沒有順序關係的欄位使用此方法

查看相關性

皮爾森積相關係數用於度量兩組數據的變量X和Y之間的線性相關的程度,越趨近於0代表兩者間的相關性越小

這裡會計算相關性後繪製成熱力圖,選擇跟Subscription Plan相關性較大的特徵後,再進行下一步的模型訓練

raw-image
zoomable


raw-image
zoomable


從相關係數可以得知,Subscription Plan跟其他特徵的相關性並不高

可以從這裡推測這份資料集可能無法得到準確的預測結果

3.建立模型

選擇相關性較高的特徵來訓練,並將特徵拆分成測試集和訓練集

step1 訓練模型

選擇跟Baseline1相同得模型Decision Tree,來查看加入先前的非數值欄位作為特徵後,是否能提高準確度,結果如下:

raw-image
zoomable

選擇的特徵經過訓練後可以得到約53%的準確率,表示這份資料集似乎不適合用來進行預測


step2 加入新特徵

加入之前建立的新特徵'月份'後,模型同樣選擇Decision Tree,重新訓練並查看結果

raw-image
zoomable

加入新的特徵後準確度沒有提升,因此將該特徵移除


step3 加入其他模型

利用其他模型進行分析與Decision Tree比較,使用以下模型

logistic regression

SVM

Random Forest

KNN

raw-image
zoomable

從上面結果可觀察到,表現最好的模型為Decision Tree,且所有模型的準確度都落在50%左右,接下來將調整超參數,來觀察是否能提高預測結果


4.超參數調整

step1 設定超參數

利用Random Search隨機選擇參數組合進行嘗試,找出上述模型中相對較佳的組合


step2 訓練模型並進行預測

對每個優化後的模型進行訓練,並得到以下準確度

raw-image
zoomable

經過優化後,可以看到多數模型的預測準確度都有些許的提升,而最佳的模型依然為Decision Tree,其準確度約53.8%

從預測結果來看,5成多的準確度代表此份資料集不適用於訂閱模式的預測


資料分群

訂閱資料記錄了用戶與平台的互動內容,是理解用戶行為、價值和需求的資源。透過分群分析,可以將不同訂閱模式和用戶行為分成多個具有特徵的群體,從而實現以下目標:

  1. 識別高價值用戶:找出那些頻繁續訂或選擇高價訂閱計劃的核心客戶,進一步提供優惠或專屬服務。
  2. 預測流失風險:定位訂閱即將到期且活躍度下降的用戶,主動推送優惠,提高續訂率。
  3. 精準行銷:根據不同用戶群的需求特徵,制定個性化行銷策略,提升促銷活動的效果。
  4. 優化產品策略:分析用戶的偏好,為產品升級和服務改進提供數據支撐。


觀察以下欄位定義

  • User ID : 使用者ID
  • Name : 名字
  • Email Address : 電子郵件地址
  • Username : 暱稱
  • Date of Birth : 生日
  • Gender : 性別
  • Location : 住址
  • Membership Start Date : 訂閱起日
  • Membership End Date : 訂閱訖日
  • Subscription Plan : 訂閱方案
  • Payment Information : 付款方式
  • Renewal Status : 續訂方式
  • Usage Frequency : 使用頻率
  • Purchase History : 購買紀錄
  • Favorite Genres : 購物偏好
  • Devices Used : 登入/使用設備
  • Engagement Metrics : 參與程度
  • Feedback/Ratings : 評分
  • Customer Support Interactions : 客服互動次數

由上面欄位可以觀察到,資料涵蓋了具體的行為時間記錄、行為頻率、具有商業價值的行為,因此接下來會採取RMF模型來做資料分群

RFM 分析的標準定義:

依據購買頻率 (Frequency)

最近一次購買時間 (Recency)

購買金額 (Monetary)

在這份資料中,給予三個指標定義如下:

  • 活躍度(Recency):使用Membership End Date,距離到期日月久,給予較高的分數
  • 忠誠度(Frequency):Usage Frequency中使用頻率越高,給予越高的分數
  • 消費金額(Monetary):Subscription Plan中,年訂閱分數較高,月訂閱分數較低


FRM分析

利用直方圖,查看三個指標在不同等級各自所占的比例:

raw-image
zoomable







raw-image
zoomable







raw-image
zoomable






定義顧客分群

  • 將指標數值轉化為0或1,使其呈現二元的狀態
    • 定義Recency超過3的為1,其他為0
    • 定義Frequency是3的為1,其他為0
    • 定義Monetary是3的為1,其他為0


  • 組合欄位並定義顧客分類
    • 111: 最重要的顧客
    • 110: 未來有消費潛力的顧客
    • 101: 消費頻率較低的顧客
    • 100: 新顧客
    • 011: 近期流失的重要顧客
    • 010: 普通顧客
    • 001: 流失掉的高消費顧客
    • 000: 非客群
  • 根據組合後的欄位來替客戶進行分級
    • 111: High
    • 110: High
    • 101: Medium
    • 100: Medium
    • 011: Medium
    • 010: Medium
    • 001: Low
    • 000: Low
  • 查看分群後不同級別的顧客所佔的比例,並繪製成長條圖
raw-image
zoomable







將顧客重新分群後,可以觀察到客戶分級後屬於Medium比例最高,這群人是應該要重點發展的對象,讓High的比例增加
High的比例最低,這些客戶可能需要加強客戶關係的維持,讓其願意持續使用本服務

LOW的比例偏高,代表有需多客戶屬於非活躍用戶,可能要檢討是什麼原因讓使用者申訂閱後卻使用意願不高


觀察加入不同特徵後的資料分布

查看在不同年齡,不同群的客戶所佔得數量

raw-image
zoomable







  • 可觀察到用戶數量在30歲後隨年齡遞減,但70歲後反而遞增
  • 年輕用戶似乎更常瀏覽網站,高價值客戶比例較高而低價值比例較低
  • 90歲以上的使用者人數反而上升,這跟我們平時了解到的有些不同,後續可以觀察原因為何,是否為異常值
  • 跟20歲以下比例極低,可以嘗試培養這些年輕用戶成為會員






留言
avatar-img


留言分享你的想法!
你可能也想看
Google News 追蹤
Thumbnail
■ 本集重點 •客戶成功平台市場規模 •創業家最常犯的 Go-to-Market 錯誤 •客戶成功部門與 AI/生成式AI 在工作上的共存
消費者研究,可以了解以下: 瞭解消費者行為、能力、態度,了解消費者本身有哪些限制 確認消費者使用情境、需求,以期產品最終符合消費者期許的目標 讓設計決策能有依據,並非猜測或個人喜好,可以回朔研究結果 確認專案目標,以利後續評估產品成敗   研究消費者基本特徵,運用顧客標籤進行分眾  常
Thumbnail
當你想到日本Amazon這個全球電商巨頭時,有沒有想過自己也能在這個競爭激烈的市場中分一杯羹?在這片充滿無限可能和未知挑戰的電子商務天地裏,無論你是初創企業還是老牌公司,機會與挑戰並存。究竟該如何踏出這一步?本文將和你一起探索日本亞馬遜帶來的機會與挑戰,並會和你探索市場和解答有關日本Amazon的常
Thumbnail
#週一推薦 #行銷人必學 數據洞察行銷的專場分享 面對瞬息萬變的數據行銷時代,您準備好了嗎? 在我眼中,沒有難做的市場,只有看不見的藍海 而準確的線上數據越來越能夠協助我們洞悉商機 #消費者旅程的洞察 隨著第三方cookie消失|各大品牌和電商積極收集從公領域轉到私領域流量的數據,如果線上和
Thumbnail
EP24 精華重點: 1.做好市場調查和分析,先找到目標客群,再開發產品。 2.透過最小可行性產品(MVP)模式,先做小批量產品,並藉由問卷、試吃會等方式了解消費者反應,驗證市場需求。 3.親身實地面對顧客,了解真實反應和需求,做為後續產品改良的參考。 4.產品差異化很重要
Thumbnail
自媒體(內容創作者)運營綱領4包含了搜尋引擎優化、內容生產、市場研究和知識付費相關的建議。
Thumbnail
台灣零售媒體第一品牌 TenMax,為您即時掌握行業內最新動態。本週,將與您來分享廣告主對於零售媒體的投資趨勢,AI 在零售媒體發展中的關鍵角色以及 Meta 廣告更新對站外零售媒體的影響。 
Thumbnail
在敏捷的開發環境中,數據分析已成為企業和個人實現策略優化的關鍵工具,如何快速有效地進行 A/B 測試非常很重要。透過數據分析,Netflix 和 Spotify 這些串流平台得以透過數據優化行銷策略或是找出洞察,做出商業決策。 這篇文章開始,我們要導入數據分析的概念,探討 A/B 測試如何幫助我們
Thumbnail
本文分享瞭如何觀察後臺廣告數據,並根據數據分析來進行廣告投放的執行過程。作者強調了轉換率與轉換成本在不同產業與產品價格帶下的影響,並提到了如何根據數據來選擇最適合的廣告版本進行投放。文章結合作者個人觀點和經驗進行了廣告數據分析,值得一讀。
Thumbnail
■ 本集重點 •客戶成功平台市場規模 •創業家最常犯的 Go-to-Market 錯誤 •客戶成功部門與 AI/生成式AI 在工作上的共存
消費者研究,可以了解以下: 瞭解消費者行為、能力、態度,了解消費者本身有哪些限制 確認消費者使用情境、需求,以期產品最終符合消費者期許的目標 讓設計決策能有依據,並非猜測或個人喜好,可以回朔研究結果 確認專案目標,以利後續評估產品成敗   研究消費者基本特徵,運用顧客標籤進行分眾  常
Thumbnail
當你想到日本Amazon這個全球電商巨頭時,有沒有想過自己也能在這個競爭激烈的市場中分一杯羹?在這片充滿無限可能和未知挑戰的電子商務天地裏,無論你是初創企業還是老牌公司,機會與挑戰並存。究竟該如何踏出這一步?本文將和你一起探索日本亞馬遜帶來的機會與挑戰,並會和你探索市場和解答有關日本Amazon的常
Thumbnail
#週一推薦 #行銷人必學 數據洞察行銷的專場分享 面對瞬息萬變的數據行銷時代,您準備好了嗎? 在我眼中,沒有難做的市場,只有看不見的藍海 而準確的線上數據越來越能夠協助我們洞悉商機 #消費者旅程的洞察 隨著第三方cookie消失|各大品牌和電商積極收集從公領域轉到私領域流量的數據,如果線上和
Thumbnail
EP24 精華重點: 1.做好市場調查和分析,先找到目標客群,再開發產品。 2.透過最小可行性產品(MVP)模式,先做小批量產品,並藉由問卷、試吃會等方式了解消費者反應,驗證市場需求。 3.親身實地面對顧客,了解真實反應和需求,做為後續產品改良的參考。 4.產品差異化很重要
Thumbnail
自媒體(內容創作者)運營綱領4包含了搜尋引擎優化、內容生產、市場研究和知識付費相關的建議。
Thumbnail
台灣零售媒體第一品牌 TenMax,為您即時掌握行業內最新動態。本週,將與您來分享廣告主對於零售媒體的投資趨勢,AI 在零售媒體發展中的關鍵角色以及 Meta 廣告更新對站外零售媒體的影響。 
Thumbnail
在敏捷的開發環境中,數據分析已成為企業和個人實現策略優化的關鍵工具,如何快速有效地進行 A/B 測試非常很重要。透過數據分析,Netflix 和 Spotify 這些串流平台得以透過數據優化行銷策略或是找出洞察,做出商業決策。 這篇文章開始,我們要導入數據分析的概念,探討 A/B 測試如何幫助我們
Thumbnail
本文分享瞭如何觀察後臺廣告數據,並根據數據分析來進行廣告投放的執行過程。作者強調了轉換率與轉換成本在不同產業與產品價格帶下的影響,並提到了如何根據數據來選擇最適合的廣告版本進行投放。文章結合作者個人觀點和經驗進行了廣告數據分析,值得一讀。