【數據分析】資料集Amazon Prime Userbase Dataset探索

更新 發佈閱讀 11 分鐘

資料集來源 : kaggle

對於電商來說,訂閱模式已成為許多企業的重要運營方式,訂閱資料不僅記錄了用戶的購買行為,也反映了用戶對平台的使用頻率與互動習慣。訂閱方式的變化可能會影響Amazon Prime 平台的營收甚至未來的成長,因此若能掌握影響訂閱模式的因素,預測使用者的偏好,能夠更精準的行銷、針對偏好進行產品或服務的優化,以促進業務的增長。

預測使用者訂閱模式

目標:透過預測模型,找出影響訂閱方案的變數,提高客戶的保留率

流程:

1.資料預處理:清理和準備資料集以進行分析。

2.EDA:透過視覺化和統計來了解資料

3.模型訓練:評估不同的機器學習模型,選擇表現最佳的模型

4.超參數優化 : 找出模型最佳的超參數


1.資料預處理

step1 載入資料集

從kaggle取得公開資料

step2 資料前處理

處理遺漏值:此專案無缺失值

轉換資料格式:將日期格式轉換為數值;將object格式轉換為int或float

step3 建立baseline1

這裡使用原始格式為數值的特徵來訓練基本模型,提供一個簡單的參考點,用於評估後續新增的特徵或模型的效果是否有明顯提升

以下使用Decision Tree來訓練,優點是解釋性高,對於少量資料表現穩定

raw-image



從上面結果可知,在僅選擇少數特徵的前提下,透過基本模型,可以得到約5成的準確度。

因此若後續對資料的處理讓準確度低於51%,則代表該處理對提升預測的準確度是沒有幫助的


2.EDA資料探索

資料探索:可以初步認識資料,並確認資料間的關係

目的:由於要進行使用者訂閱傾向的預測,因此需要查看其他欄位跟訂閱計畫(Subscription Plan)之間的關係,並將結果視覺化


  • 檢查重複值
    檢查是否有重複值,如果有則將其移除
raw-image







  • 觀察Feedback/Ratings和Subscription Plan的關係

使用密度圖,以連續平滑的曲線表示變數的分布

raw-image

可觀察到Annual和Monthly的分布大致相同,其中Annual比Monthly略高一些,評分結果集中在3至5之間





  • 觀察Customer Support Interactions和Subscription Plan的關係
raw-image

Annual和Monthly的分布大致相同,用戶的互動次數落在0到10次之間




  • 查看類別欄位跟 Subscription Plan 的關係

透過直方圖來觀察以下欄位

raw-image

Payment Information中顯示的支付方式大致相同



raw-image


Gender代表性別比例差不多




raw-image


Renewal Status中兩者間差異不大




raw-image

訂閱方案選擇Annual的人似乎稍微多一點點





raw-image

選擇不同訂閱方案的人購物喜好似乎不太相同,可以繼續觀察




raw-image


對於喜好部分各有些許不同,可以繼續探索




raw-image


在Devices Used部分差異不大





raw-image

Engagement Metrics也無顯著差異





從上面的分析可以發現,無論是年訂閱還是月訂閱,目前的特徵在兩者之間沒有顯著的差異,接下來可以使用特徵工程的方式來新增特徵,並觀察新的特徵在兩者間是否有差異

特徵工程

這個步驟想在對這個資料集做兩件事

1.建立新特徵 : 查看不同月份的訂閱是否對Subscription Plan有不同的偏好

  • 從'Membership Start Date'取出月份,並轉換格式


2.將類別欄位轉換成數值:由於模型只接受數值類型的資料,因此非數值型的資料都需先做轉換或移除

  • Ordinal Encoding

將類別轉為有順序性的數值,適合有順序性的類別

帶有順序性的'usage frequency'、'engagement metrics'使用此方式

  • One-Hot Encoding

為每個類別生成一個二進位欄位,不會引入類別間的隱含順序關係

其餘沒有順序關係的欄位使用此方法

查看相關性

皮爾森積相關係數用於度量兩組數據的變量X和Y之間的線性相關的程度,越趨近於0代表兩者間的相關性越小

這裡會計算相關性後繪製成熱力圖,選擇跟Subscription Plan相關性較大的特徵後,再進行下一步的模型訓練

raw-image


raw-image


從相關係數可以得知,Subscription Plan跟其他特徵的相關性並不高

可以從這裡推測這份資料集可能無法得到準確的預測結果

3.建立模型

選擇相關性較高的特徵來訓練,並將特徵拆分成測試集和訓練集

step1 訓練模型

選擇跟Baseline1相同得模型Decision Tree,來查看加入先前的非數值欄位作為特徵後,是否能提高準確度,結果如下:

raw-image

選擇的特徵經過訓練後可以得到約53%的準確率,表示這份資料集似乎不適合用來進行預測


step2 加入新特徵

加入之前建立的新特徵'月份'後,模型同樣選擇Decision Tree,重新訓練並查看結果

raw-image

加入新的特徵後準確度沒有提升,因此將該特徵移除


step3 加入其他模型

利用其他模型進行分析與Decision Tree比較,使用以下模型

logistic regression

SVM

Random Forest

KNN

raw-image

從上面結果可觀察到,表現最好的模型為Decision Tree,且所有模型的準確度都落在50%左右,接下來將調整超參數,來觀察是否能提高預測結果


4.超參數調整

step1 設定超參數

利用Random Search隨機選擇參數組合進行嘗試,找出上述模型中相對較佳的組合


step2 訓練模型並進行預測

對每個優化後的模型進行訓練,並得到以下準確度

raw-image

經過優化後,可以看到多數模型的預測準確度都有些許的提升,而最佳的模型依然為Decision Tree,其準確度約53.8%

從預測結果來看,5成多的準確度代表此份資料集不適用於訂閱模式的預測


資料分群

訂閱資料記錄了用戶與平台的互動內容,是理解用戶行為、價值和需求的資源。透過分群分析,可以將不同訂閱模式和用戶行為分成多個具有特徵的群體,從而實現以下目標:

  1. 識別高價值用戶:找出那些頻繁續訂或選擇高價訂閱計劃的核心客戶,進一步提供優惠或專屬服務。
  2. 預測流失風險:定位訂閱即將到期且活躍度下降的用戶,主動推送優惠,提高續訂率。
  3. 精準行銷:根據不同用戶群的需求特徵,制定個性化行銷策略,提升促銷活動的效果。
  4. 優化產品策略:分析用戶的偏好,為產品升級和服務改進提供數據支撐。


觀察以下欄位定義

  • User ID : 使用者ID
  • Name : 名字
  • Email Address : 電子郵件地址
  • Username : 暱稱
  • Date of Birth : 生日
  • Gender : 性別
  • Location : 住址
  • Membership Start Date : 訂閱起日
  • Membership End Date : 訂閱訖日
  • Subscription Plan : 訂閱方案
  • Payment Information : 付款方式
  • Renewal Status : 續訂方式
  • Usage Frequency : 使用頻率
  • Purchase History : 購買紀錄
  • Favorite Genres : 購物偏好
  • Devices Used : 登入/使用設備
  • Engagement Metrics : 參與程度
  • Feedback/Ratings : 評分
  • Customer Support Interactions : 客服互動次數

由上面欄位可以觀察到,資料涵蓋了具體的行為時間記錄、行為頻率、具有商業價值的行為,因此接下來會採取RMF模型來做資料分群

RFM 分析的標準定義:

依據購買頻率 (Frequency)

最近一次購買時間 (Recency)

購買金額 (Monetary)

在這份資料中,給予三個指標定義如下:

  • 活躍度(Recency):使用Membership End Date,距離到期日月久,給予較高的分數
  • 忠誠度(Frequency):Usage Frequency中使用頻率越高,給予越高的分數
  • 消費金額(Monetary):Subscription Plan中,年訂閱分數較高,月訂閱分數較低


FRM分析

利用直方圖,查看三個指標在不同等級各自所占的比例:

raw-image







raw-image







raw-image






定義顧客分群

  • 將指標數值轉化為0或1,使其呈現二元的狀態
    • 定義Recency超過3的為1,其他為0
    • 定義Frequency是3的為1,其他為0
    • 定義Monetary是3的為1,其他為0


  • 組合欄位並定義顧客分類
    • 111: 最重要的顧客
    • 110: 未來有消費潛力的顧客
    • 101: 消費頻率較低的顧客
    • 100: 新顧客
    • 011: 近期流失的重要顧客
    • 010: 普通顧客
    • 001: 流失掉的高消費顧客
    • 000: 非客群
  • 根據組合後的欄位來替客戶進行分級
    • 111: High
    • 110: High
    • 101: Medium
    • 100: Medium
    • 011: Medium
    • 010: Medium
    • 001: Low
    • 000: Low
  • 查看分群後不同級別的顧客所佔的比例,並繪製成長條圖
raw-image







將顧客重新分群後,可以觀察到客戶分級後屬於Medium比例最高,這群人是應該要重點發展的對象,讓High的比例增加
High的比例最低,這些客戶可能需要加強客戶關係的維持,讓其願意持續使用本服務

LOW的比例偏高,代表有需多客戶屬於非活躍用戶,可能要檢討是什麼原因讓使用者申訂閱後卻使用意願不高


觀察加入不同特徵後的資料分布

查看在不同年齡,不同群的客戶所佔得數量

raw-image







  • 可觀察到用戶數量在30歲後隨年齡遞減,但70歲後反而遞增
  • 年輕用戶似乎更常瀏覽網站,高價值客戶比例較高而低價值比例較低
  • 90歲以上的使用者人數反而上升,這跟我們平時了解到的有些不同,後續可以觀察原因為何,是否為異常值
  • 跟20歲以下比例極低,可以嘗試培養這些年輕用戶成為會員






留言
avatar-img
Yen的數據探索筆記的沙龍
0會員
2內容數
你可能也想看
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
債券投資,不只是高資產族群的遊戲 在傳統的投資觀念中,海外債券(Overseas Bonds)常被貼上「高資產族群專屬」的標籤。過去動輒 1 萬甚至 10 萬美元的最低申購門檻,讓許多想尋求穩定配息的小資族望而卻步。 然而,在股市波動劇烈的環境下,尋求穩定的美元現金流與被動收入成為許多投資人
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
透過川普的近期債券交易揭露,探討債券作為資產配置中「穩定磐石」的重要性。文章分析降息對債券的潛在影響,以及股神巴菲特的操作策略。並介紹玉山證券「小額債」平臺,如何讓小資族也能低門檻參與海外債券市場,實現「低門檻、低波動、固定收益」的務實投資方式。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
解析「債券」如何成為資產配置中的穩定錨,提供低風險高回報的投資選項。 藉由玉山證券的低門檻債券服務,投資者可輕鬆入手,平衡風險並穩定財務。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
相較於波動較大的股票,債券能提供固定現金流,而玉山證券推出的小額債,更以1000 美元的低門檻,讓學生與新手也能參與全球優質企業債投資。玉山E-Trader平台即時報價、條件式篩選與清楚的交易流程等特色,大幅降低投資難度,對於希望分散風險、建立穩定現金流的人來說,玉山小額債是一個值得嘗試的理財起點。
Thumbnail
文章描述了觀察者如何從銷售數量的日線圖中,以及通過歸納統計和經濟理論進行解讀,透過時間統計分析消費者的行為特徵,以及角度數據如何關注臺灣市場的消費。
Thumbnail
文章描述了觀察者如何從銷售數量的日線圖中,以及通過歸納統計和經濟理論進行解讀,透過時間統計分析消費者的行為特徵,以及角度數據如何關注臺灣市場的消費。
Thumbnail
交易回測是執行各種交易重要一環,這裡主要採用自行開發的Excel回測工具進行歷史資料模擬各種市場情境,包括事件觸發、MSIC季度調整、聯準會升降息以及技術籌碼面的變化。透過反覆的回測過程,可以深入瞭解各種情況下的交易策略執行情況,並逐步優化其交易策略。這有助於建立交易的紀律性,
Thumbnail
交易回測是執行各種交易重要一環,這裡主要採用自行開發的Excel回測工具進行歷史資料模擬各種市場情境,包括事件觸發、MSIC季度調整、聯準會升降息以及技術籌碼面的變化。透過反覆的回測過程,可以深入瞭解各種情況下的交易策略執行情況,並逐步優化其交易策略。這有助於建立交易的紀律性,
Thumbnail
在交易千萬別見樹不見林 中示範如何在同一張圖表上加入不同週期的行情走勢,本篇將對MultiCharts初體驗-函式撰寫、MultiCharts初體驗-訊號撰寫 的程式進行改寫,讓程式可以讀取到多週期的K線資料。 在MC中可以用Data1、Data2、⋯⋯、Data99的指定方式,來存取圖表中的數列
Thumbnail
在交易千萬別見樹不見林 中示範如何在同一張圖表上加入不同週期的行情走勢,本篇將對MultiCharts初體驗-函式撰寫、MultiCharts初體驗-訊號撰寫 的程式進行改寫,讓程式可以讀取到多週期的K線資料。 在MC中可以用Data1、Data2、⋯⋯、Data99的指定方式,來存取圖表中的數列
Thumbnail
在保險產品管理中,儀表板是解析數據的關鍵工具,它提供豐富的指標和功能,讓保險產品經理能更好地了解市場趨勢、客戶行為和產品表現。以下是「Power Insight產品智慧助理」操作儀表板的指南,幫助理解各項功能和指標,以及如何解決保險產品經理常遇到的問題。 日期區間選擇 日期區間選擇是儀表板中
Thumbnail
在保險產品管理中,儀表板是解析數據的關鍵工具,它提供豐富的指標和功能,讓保險產品經理能更好地了解市場趨勢、客戶行為和產品表現。以下是「Power Insight產品智慧助理」操作儀表板的指南,幫助理解各項功能和指標,以及如何解決保險產品經理常遇到的問題。 日期區間選擇 日期區間選擇是儀表板中
Thumbnail
chatgpt說得一口好資料科學跟股票分析,我就來實際看看他會寫什麼出來
Thumbnail
chatgpt說得一口好資料科學跟股票分析,我就來實際看看他會寫什麼出來
Thumbnail
潛在類別模式(latent class modeling, LCM)和潛在剖面分析(Latent Profile Analysis, LPA)是探討潛在類別變項的統計技術。兩者與因素分析最大的不同在於潛在變項(因素)的形式。本文將介紹潛在類別/剖面/混合分析操作1:找出最佳組數
Thumbnail
潛在類別模式(latent class modeling, LCM)和潛在剖面分析(Latent Profile Analysis, LPA)是探討潛在類別變項的統計技術。兩者與因素分析最大的不同在於潛在變項(因素)的形式。本文將介紹潛在類別/剖面/混合分析操作1:找出最佳組數
Thumbnail
在資料分析領域中,購物籃分析又稱關聯分析,從大量的交易資料中,探勘出在資料間具有相關性的隱藏規則與商業知識。
Thumbnail
在資料分析領域中,購物籃分析又稱關聯分析,從大量的交易資料中,探勘出在資料間具有相關性的隱藏規則與商業知識。
Thumbnail
1. 時間序列的基本概念 常見的時間序列分解方式有以下兩種: 1-1. 加法模型(Additive Model): Y(t)=Trend(t)+Cycle(t)+Seasonal(t)+Irregular(t) 適用於季節性的規模基本保持不變,不隨原始序列水平增減而變化(如圖1(a))。
Thumbnail
1. 時間序列的基本概念 常見的時間序列分解方式有以下兩種: 1-1. 加法模型(Additive Model): Y(t)=Trend(t)+Cycle(t)+Seasonal(t)+Irregular(t) 適用於季節性的規模基本保持不變,不隨原始序列水平增減而變化(如圖1(a))。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News