透過R語言分析顧客消費情況

2024/11/13 更新2021/11/14 發佈閱讀 4 分鐘

本篇使用UCI機器學習資料庫的Online Shoppers Purchasing Intention Dataset，資料內容為12330筆的顧客網站不同形式(管理、消息、產品)頁面的瀏覽數、瀏覽時間、離開率、跳轉率、頁面價值，以及顧客來自區域、作業系統、瀏覽器等等類別背景變項，本篇將會透過統計與機器學習方式篩選變項，並進行最終顧客是否會購買的預測。 1、首先讓我們載入資料並查看一下資料型態，發現部分背景變項被錯誤轉換成整數型態，不過本篇只會使用連續變項，所以無需進行修改，唯有想要預測的y值Revenue是布林值，將它改成R語言中的factor後進行下一步。

2、刪除第11~17項背景變項，在R語言中可透過c(11:17)這種方式表達從第11筆到17筆資料，加上負號(-)代表是移除這些資料，所以也可透過c(1:10,18)這種方式表達，透過colnames方式重新命名column名稱，並指定為所引入之指定內容。
接著我們引入Hmisc這個套件，裡面的rcorr函數可以讓我們一目了然的察看各變項之間的相關性，對於我們查看資料狀態及建立統計迴歸模型都有很好的幫助，避免可能會遇到的問題，如：多元共線性。

3、根據上方資料，我們會發現行政管理瀏覽次數(Adm.)和行政管理頁面瀏覽時間(Adm_du)有高度相，r=0.60，其他兩種頁面也有同樣情況，回頭查看原始資料發現，基本上如果顧客沒有瀏覽該種頁面，該種頁面的瀏覽時間也會為0，也就是說，只要次數為0，時間必定為0；次數不為0，時間必定不為0。(當發生此種現象，代表資料並非獨立，(0,0)的資料實際上沒有帶來任何資訊，往後會提及處理這種現象的方式)
因為缺乏相關領域的知識，我還是先留下這些資料，於下一步執行特徵篩選再進行刪除的動作。

4、我們可以簡單地透過Boruta這個函數得到特徵選取的建議，方式為
Boruta(y~X, data)，呈現的報表會給予特徵是否為重要特徵，根據報表回應，所有變項都是重要變項，我們就不排除任何一個特徵。

5、最後我們透過決策樹建立模型，預測出顧客最後是否進行購物，我們這邊採用rpart函數來進行模型的建立，一樣須先載入rpart套件，模型建立方法與建立線性模型方式很像，我們挑出80%資料當作訓練集、20%當作測試集，最後透過predict這個函數將測試集的資料預測，並製作混淆矩陣檢查預測準確度。

6、結論，透過上述方法與特徵選取過程，預測準確度可達接近90%，但其實這個資料集中有很大的資料不平衡問題(unbalaneced data)，往後會提及相關的解決方式，如undersampling、smote、GAN等等方式。

喜歡這些內容麻煩幫我按讚，也可分享出去給更多人知道，學海無涯，這些只是一點點小知識，希望大家會喜歡！

留言

留言分享你的想法！

炯男孩的沙龍

4會員

8內容數

本專題將以Python程式語言來實作資料結構，依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph)，透過不同方式來建立資料結構，並討論部分細節如：建構難度、記憶體空間、效率等等。

炯男孩的沙龍的其他內容

2022/08/10

從Python認識資料結構(五)．堆疊

本章介紹第二種常見的資料結構 - 堆疊(Stack)，與陣列建立方式雷同，我們常透過靜態串列與動態鏈結串列的方式來建立堆疊，本文會介紹實作過程與比較兩種方式之間的差異。

2022/08/10

從Python認識資料結構(五)．堆疊

2022/08/09

從Python認識資料結構(四)．陣列

本文為陣列實作的延伸，特別介紹鏈結串列不同的方式，以解決一些常發生在鏈結串列上的問題，並比較不同做法的優缺點。

2022/08/09

從Python認識資料結構(四)．陣列

本文為陣列實作的延伸，特別介紹鏈結串列不同的方式，以解決一些常發生在鏈結串列上的問題，並比較不同做法的優缺點。

2022/07/12

從Python認識資料結構(三)．陣列

本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能，如：刪除、計算元素個數與反轉。

2022/07/12

從Python認識資料結構(三)．陣列

本文會介紹靜態結構 - 串列(List)與動態結構 - 鏈結串列(Linked List)來實踐陣列的不同功能，如：刪除、計算元素個數與反轉。

看更多

你可能也想看

真師傅的AI沙龍

AI dropshipping的具體應用或優缺點?

產品採購：AI 可以幫助找到熱門的產品和趨勢。客戶互動：AI 可以自動回答客戶問題，提供個性化的產品推薦。市場分析：AI 可以自動分析市場數據，幫助你了解競爭對手和市場趨勢。產品描述寫作：AI 可以自動生成產品描述，節省你的時間。

#AIDropshipping#具體應用和優缺點#AI

2024/07/21

真師傅的AI沙龍

AI dropshipping的具體應用或優缺點?

#AIDropshipping#具體應用和優缺點#AI

2024/07/21

劉典倡-見微知顯的行銷筆記

行銷人必學-數據紅利

＃週一推薦 #行銷人必學數據洞察行銷的專場分享面對瞬息萬變的數據行銷時代，您準備好了嗎？在我眼中，沒有難做的市場，只有看不見的藍海而準確的線上數據越來越能夠協助我們洞悉商機＃消費者旅程的洞察隨著第三方cookie消失｜各大品牌和電商積極收集從公領域轉到私領域流量的數據，如果線上和

2024/05/14

2024/05/14

生活上的消費習慣可以影響很多銷售員的沉沒成本效應 1.到了一間服飾店看到喜歡的衣服,馬上就跟銷售員殺價,這個時候多數人都會假裝離開,期待銷售員追上來妥協,這個方式90%機率都會失敗 2.到了一件服飾店,看到喜歡的衣服,不馬上討論價格,而是反覆詢問款式流行尺寸試穿甚至跟銷售員聊天到其

2024/04/06

2024/04/06

觀察家知道消費者購物商品的地方不會固定，即使是線上購物消費者今天在 Yahoo 消費，明天可能出現在蝦皮商城購物，因為每一間商店所販售的商品也不一樣，提供的優惠也不盡相同。

2024/03/26

2024/03/26

通過觀察消費需求的變化圖表，透過人工智慧分析，提供營運商品的銷售資料，自動比較銷售趨勢，並提供觀察家建議。此外，角度數據還分析出麥當勞的商品銷售手法，並解析其成功原因。文章主要探討如何透過人工智慧來分析銷售趨勢與找出成功企業的真正原因。

2024/03/14

2024/03/14

這篇文章討論了消費者意向分析所涉及的消費市場商品銷售的變化。討論了觀察家透過角度數據資料庫的線圖，以及人工智慧的應用。文章也提及了消費者的購物週期及保健食品的消費趨勢，以及 RMN 商業模式。最後，強調了角度數據的觀察家應該始終關注最新的消費資料。

2024/03/13

2024/03/13

在當今數位化的商業環境中，新商品開發已經不再僅依賴傳統的市場調查和直覺決策。隨著大數據和人工智慧技術的迅速發展，數據驅動的開發策略成為推動創新和保持市場競爭力的關鍵。本文將探討如何利用數據驅動的方法來優化新商品開發流程，從而更有效地滿足消費者需求，提高產品成功率。

2024/03/12

2024/03/12

文章描述了觀察者如何從銷售數量的日線圖中，以及通過歸納統計和經濟理論進行解讀，透過時間統計分析消費者的行為特徵，以及角度數據如何關注臺灣市場的消費。

2024/03/12

2024/03/12

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News