透過R語言分析顧客消費情況

閱讀時間約 3 分鐘
Online shopping示意圖XD
本篇使用UCI機器學習資料庫的Online Shoppers Purchasing Intention Dataset,資料內容為12330筆的顧客網站不同形式(管理、消息、產品)頁面的瀏覽數、瀏覽時間、離開率、跳轉率、頁面價值,以及顧客來自區域、作業系統、瀏覽器等等類別背景變項,本篇將會透過統計與機器學習方式篩選變項,並進行最終顧客是否會購買的預測。 1、首先讓我們載入資料並查看一下資料型態,發現部分背景變項被錯誤轉換成整數型態,不過本篇只會使用連續變項,所以無需進行修改,唯有想要預測的y值Revenue是布林值,將它改成R語言中的factor後進行下一步。
讀檔案、看資料型態
2、刪除第11~17項背景變項,在R語言中可透過c(11:17)這種方式表達從第11筆到17筆資料,加上負號(-)代表是移除這些資料,所以也可透過c(1:10,18)這種方式表達,透過colnames方式重新命名column名稱,並指定為所引入之指定內容。
接著我們引入Hmisc這個套件,裡面的rcorr函數可以讓我們一目了然的察看各變項之間的相關性,對於我們查看資料狀態及建立統計迴歸模型都有很好的幫助,避免可能會遇到的問題,如:多元共線性。
重新命名與相關矩陣
3、根據上方資料,我們會發現行政管理瀏覽次數(Adm.)和行政管理頁面瀏覽時間(Adm_du)有高度相,r=0.60,其他兩種頁面也有同樣情況,回頭查看原始資料發現,基本上如果顧客沒有瀏覽該種頁面,該種頁面的瀏覽時間也會為0,也就是說,只要次數為0,時間必定為0;次數不為0,時間必定不為0。(當發生此種現象,代表資料並非獨立,(0,0)的資料實際上沒有帶來任何資訊,往後會提及處理這種現象的方式)
因為缺乏相關領域的知識,我還是先留下這些資料,於下一步執行特徵篩選再進行刪除的動作。
4、我們可以簡單地透過Boruta這個函數得到特徵選取的建議,方式為
Boruta(y~X, data),呈現的報表會給予特徵是否為重要特徵,根據報表回應,所有變項都是重要變項,我們就不排除任何一個特徵。
透過Boruta進行特徵選取
5、最後我們透過決策樹建立模型,預測出顧客最後是否進行購物,我們這邊採用rpart函數來進行模型的建立,一樣須先載入rpart套件,模型建立方法與建立線性模型方式很像,我們挑出80%資料當作訓練集、20%當作測試集,最後透過predict這個函數將測試集的資料預測,並製作混淆矩陣檢查預測準確度。
最終決策樹預測結果
6、結論,透過上述方法與特徵選取過程,預測準確度可達接近90%,但其實這個資料集中有很大的資料不平衡問題(unbalaneced data),往後會提及相關的解決方式,如undersampling、smote、GAN等等方式。
喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
留言0
查看全部
發表第一個留言支持創作者!
炯男孩的沙龍 的其他內容
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
你可能也想看
Google News 追蹤
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
這篇文章記錄「與情緒溫柔相處工作坊」中習得的轉化情緒方法。作者分享了自己的心得,並對情緒背後的正向意圖,結合個人情感與成長啟示,提出深度思考。並紀錄如何利用 NLP 基礎技巧來調整大腦裡的素材元素,以及如何運用逐步抽離法改善對負面情緒的影響。
上一次我們談到了目標設定和人們對於執行力的選擇 今天我們則是要來聊聊,當你為自己設定了一個目標之後,可以透過什麼樣的方式去執行、面對壓力後該如何去思考學習、並且更專注於個人的目標上~     (圖片來源:https://www.dreamstime.com/freedom-word-writ
你的思想自由嗎?你的想法清晰嗎? 你的目標是什麼?你會為了達成目標做什麼樣的努力呢? 如果你是一個會為自己設定目標的人,那你是一個會努力達成自己計劃的人嗎?或是你發現自己時常會半途而廢呢? 我們的目標不應該只是一長串的待辦事項,而是讓生活上更有動力的來源。
Thumbnail
專題式學習是一種有益於幼兒成長的教學方式,通過引發問題、實際參與和統整學習內容,幫助孩子建立持久和有影響力的學習。本文探討了專題式學習的特點和如何幫助孩子進行問題驅動的學習。
手寫書目卡是一種獨特而有效的預寫作技巧,專為那些希望從閱讀中提煉和聚焦精華想法的作家和讀者設計。這種方法可以幫助你更高效率地選擇和整理從閱讀獲得的靈感。但是,這個過程也伴隨著一些挑戰。讓我們探索這些挑戰,並提出可能的解決方案。 挑戰1 - 選擇性記錄的難度:由於書目卡的空間有限,且手寫本身就是一項
Thumbnail
言語是內在本質的外在表現,儘管說話的技巧可以培養,但是一個人的心性,卻是用再美的巧語包裝,也終究會隨著時間顯化。
Thumbnail
最近在Netflix上了一部日本動畫,言語如汽水般湧現,是以俳句為主體的動畫電影,男女主角各自都有些自己的人生課題要面對,兩人因為手機而邂逅,然後有了更多相處時間。這是一部非常適合在夏天觀看的電影,看了心情也會變得很好,非常推薦!
Thumbnail
在昨天的部分,我們進行了個股間的相關性分析,今天我們就來針對技術指標,透過設定指定條件來自動抓出個股的進出場點,以及進出場後的績效回測,這些在金融數據分析上是相當重要的一部分,為了就是確認策略是否為好策略,那我們就開始今天的教學吧!!
Thumbnail
在暸解布林通道(Bollinger Bands)前,先回想一下學生時期數學課學到的「中位數」和「標準差」,由於標準差的公式計算比較複雜,我們就用簡單且規律變化的數字序列來解釋吧! 以數字的方式來理解 假設現在有一串數列,分別是1、3、5、7、9這幾個數字。 我們可以發現這一串數列是由五個數字...
Thumbnail
借《動物農莊》一用,「剽竊」一下錢鍾書先生的靈感風格,寫一篇甚麼「讀動物農莊」。
Thumbnail
接下來第二部分我們持續討論美國總統大選如何佈局, 以及選前一週到年底的操作策略建議 分析兩位候選人政策利多/ 利空的板塊和股票
Thumbnail
🤔為什麼團長的能力是死亡筆記本? 🤔為什麼像是死亡筆記本呢? 🤨作者巧思-讓妮翁死亡合理的幾個伏筆
Thumbnail
這篇文章記錄「與情緒溫柔相處工作坊」中習得的轉化情緒方法。作者分享了自己的心得,並對情緒背後的正向意圖,結合個人情感與成長啟示,提出深度思考。並紀錄如何利用 NLP 基礎技巧來調整大腦裡的素材元素,以及如何運用逐步抽離法改善對負面情緒的影響。
上一次我們談到了目標設定和人們對於執行力的選擇 今天我們則是要來聊聊,當你為自己設定了一個目標之後,可以透過什麼樣的方式去執行、面對壓力後該如何去思考學習、並且更專注於個人的目標上~     (圖片來源:https://www.dreamstime.com/freedom-word-writ
你的思想自由嗎?你的想法清晰嗎? 你的目標是什麼?你會為了達成目標做什麼樣的努力呢? 如果你是一個會為自己設定目標的人,那你是一個會努力達成自己計劃的人嗎?或是你發現自己時常會半途而廢呢? 我們的目標不應該只是一長串的待辦事項,而是讓生活上更有動力的來源。
Thumbnail
專題式學習是一種有益於幼兒成長的教學方式,通過引發問題、實際參與和統整學習內容,幫助孩子建立持久和有影響力的學習。本文探討了專題式學習的特點和如何幫助孩子進行問題驅動的學習。
手寫書目卡是一種獨特而有效的預寫作技巧,專為那些希望從閱讀中提煉和聚焦精華想法的作家和讀者設計。這種方法可以幫助你更高效率地選擇和整理從閱讀獲得的靈感。但是,這個過程也伴隨著一些挑戰。讓我們探索這些挑戰,並提出可能的解決方案。 挑戰1 - 選擇性記錄的難度:由於書目卡的空間有限,且手寫本身就是一項
Thumbnail
言語是內在本質的外在表現,儘管說話的技巧可以培養,但是一個人的心性,卻是用再美的巧語包裝,也終究會隨著時間顯化。
Thumbnail
最近在Netflix上了一部日本動畫,言語如汽水般湧現,是以俳句為主體的動畫電影,男女主角各自都有些自己的人生課題要面對,兩人因為手機而邂逅,然後有了更多相處時間。這是一部非常適合在夏天觀看的電影,看了心情也會變得很好,非常推薦!
Thumbnail
在昨天的部分,我們進行了個股間的相關性分析,今天我們就來針對技術指標,透過設定指定條件來自動抓出個股的進出場點,以及進出場後的績效回測,這些在金融數據分析上是相當重要的一部分,為了就是確認策略是否為好策略,那我們就開始今天的教學吧!!
Thumbnail
在暸解布林通道(Bollinger Bands)前,先回想一下學生時期數學課學到的「中位數」和「標準差」,由於標準差的公式計算比較複雜,我們就用簡單且規律變化的數字序列來解釋吧! 以數字的方式來理解 假設現在有一串數列,分別是1、3、5、7、9這幾個數字。 我們可以發現這一串數列是由五個數字...
Thumbnail
借《動物農莊》一用,「剽竊」一下錢鍾書先生的靈感風格,寫一篇甚麼「讀動物農莊」。