透過R語言分析顧客消費情況

閱讀時間約 3 分鐘
Online shopping示意圖XD
本篇使用UCI機器學習資料庫的Online Shoppers Purchasing Intention Dataset,資料內容為12330筆的顧客網站不同形式(管理、消息、產品)頁面的瀏覽數、瀏覽時間、離開率、跳轉率、頁面價值,以及顧客來自區域、作業系統、瀏覽器等等類別背景變項,本篇將會透過統計與機器學習方式篩選變項,並進行最終顧客是否會購買的預測。 1、首先讓我們載入資料並查看一下資料型態,發現部分背景變項被錯誤轉換成整數型態,不過本篇只會使用連續變項,所以無需進行修改,唯有想要預測的y值Revenue是布林值,將它改成R語言中的factor後進行下一步。
讀檔案、看資料型態
2、刪除第11~17項背景變項,在R語言中可透過c(11:17)這種方式表達從第11筆到17筆資料,加上負號(-)代表是移除這些資料,所以也可透過c(1:10,18)這種方式表達,透過colnames方式重新命名column名稱,並指定為所引入之指定內容。
接著我們引入Hmisc這個套件,裡面的rcorr函數可以讓我們一目了然的察看各變項之間的相關性,對於我們查看資料狀態及建立統計迴歸模型都有很好的幫助,避免可能會遇到的問題,如:多元共線性。
重新命名與相關矩陣
3、根據上方資料,我們會發現行政管理瀏覽次數(Adm.)和行政管理頁面瀏覽時間(Adm_du)有高度相,r=0.60,其他兩種頁面也有同樣情況,回頭查看原始資料發現,基本上如果顧客沒有瀏覽該種頁面,該種頁面的瀏覽時間也會為0,也就是說,只要次數為0,時間必定為0;次數不為0,時間必定不為0。(當發生此種現象,代表資料並非獨立,(0,0)的資料實際上沒有帶來任何資訊,往後會提及處理這種現象的方式)
因為缺乏相關領域的知識,我還是先留下這些資料,於下一步執行特徵篩選再進行刪除的動作。
4、我們可以簡單地透過Boruta這個函數得到特徵選取的建議,方式為
Boruta(y~X, data),呈現的報表會給予特徵是否為重要特徵,根據報表回應,所有變項都是重要變項,我們就不排除任何一個特徵。
透過Boruta進行特徵選取
5、最後我們透過決策樹建立模型,預測出顧客最後是否進行購物,我們這邊採用rpart函數來進行模型的建立,一樣須先載入rpart套件,模型建立方法與建立線性模型方式很像,我們挑出80%資料當作訓練集、20%當作測試集,最後透過predict這個函數將測試集的資料預測,並製作混淆矩陣檢查預測準確度。
最終決策樹預測結果
6、結論,透過上述方法與特徵選取過程,預測準確度可達接近90%,但其實這個資料集中有很大的資料不平衡問題(unbalaneced data),往後會提及相關的解決方式,如undersampling、smote、GAN等等方式。
喜歡這些內容麻煩幫我按讚,也可分享出去給更多人知道,學海無涯,這些只是一點點小知識,希望大家會喜歡!
4會員
8內容數
本專題將以Python程式語言來實作資料結構,依序從陣列(Array)、堆疊(Stack)、佇列(Queue)、樹(Tree)到圖(Graph),透過不同方式來建立資料結構,並討論部分細節如:建構難度、記憶體空間、效率等等。
留言0
查看全部
發表第一個留言支持創作者!
炯男孩的沙龍 的其他內容
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
透過機器學習中的群集分析分類中華職棒打擊選手,並根據打擊能力與上壘能力給予選手不同積分,最後將積分加總,做為對戰的參考。
你可能也想看
Google News 追蹤
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
這篇文章記錄「與情緒溫柔相處工作坊」中習得的轉化情緒方法。作者分享了自己的心得,並對情緒背後的正向意圖,結合個人情感與成長啟示,提出深度思考。並紀錄如何利用 NLP 基礎技巧來調整大腦裡的素材元素,以及如何運用逐步抽離法改善對負面情緒的影響。
上一次我們談到了目標設定和人們對於執行力的選擇 今天我們則是要來聊聊,當你為自己設定了一個目標之後,可以透過什麼樣的方式去執行、面對壓力後該如何去思考學習、並且更專注於個人的目標上~     (圖片來源:https://www.dreamstime.com/freedom-word-writ
你的思想自由嗎?你的想法清晰嗎? 你的目標是什麼?你會為了達成目標做什麼樣的努力呢? 如果你是一個會為自己設定目標的人,那你是一個會努力達成自己計劃的人嗎?或是你發現自己時常會半途而廢呢? 我們的目標不應該只是一長串的待辦事項,而是讓生活上更有動力的來源。
Thumbnail
專題式學習是一種有益於幼兒成長的教學方式,通過引發問題、實際參與和統整學習內容,幫助孩子建立持久和有影響力的學習。本文探討了專題式學習的特點和如何幫助孩子進行問題驅動的學習。
手寫書目卡是一種獨特而有效的預寫作技巧,專為那些希望從閱讀中提煉和聚焦精華想法的作家和讀者設計。這種方法可以幫助你更高效率地選擇和整理從閱讀獲得的靈感。但是,這個過程也伴隨著一些挑戰。讓我們探索這些挑戰,並提出可能的解決方案。 挑戰1 - 選擇性記錄的難度:由於書目卡的空間有限,且手寫本身就是一項
Thumbnail
言語是內在本質的外在表現,儘管說話的技巧可以培養,但是一個人的心性,卻是用再美的巧語包裝,也終究會隨著時間顯化。
Thumbnail
最近在Netflix上了一部日本動畫,言語如汽水般湧現,是以俳句為主體的動畫電影,男女主角各自都有些自己的人生課題要面對,兩人因為手機而邂逅,然後有了更多相處時間。這是一部非常適合在夏天觀看的電影,看了心情也會變得很好,非常推薦!
Thumbnail
在昨天的部分,我們進行了個股間的相關性分析,今天我們就來針對技術指標,透過設定指定條件來自動抓出個股的進出場點,以及進出場後的績效回測,這些在金融數據分析上是相當重要的一部分,為了就是確認策略是否為好策略,那我們就開始今天的教學吧!!
Thumbnail
在暸解布林通道(Bollinger Bands)前,先回想一下學生時期數學課學到的「中位數」和「標準差」,由於標準差的公式計算比較複雜,我們就用簡單且規律變化的數字序列來解釋吧! 以數字的方式來理解 假設現在有一串數列,分別是1、3、5、7、9這幾個數字。 我們可以發現這一串數列是由五個數字...
Thumbnail
借《動物農莊》一用,「剽竊」一下錢鍾書先生的靈感風格,寫一篇甚麼「讀動物農莊」。
Thumbnail
這個秋,Chill 嗨嗨!穿搭美美去賞楓,裝備款款去露營⋯⋯你的秋天怎麼過?秋日 To Do List 等你分享! 秋季全站徵文,我們準備了五個創作主題,參賽還有機會獲得「火烤兩用鍋」,一起來看看如何參加吧~
Thumbnail
美國總統大選只剩下三天, 我們觀察一整週民調與金融市場的變化(包含賭局), 到本週五下午3:00前為止, 誰是美國總統幾乎大概可以猜到60-70%的機率, 本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變
Thumbnail
Faker昨天真的太扯了,中國主播王多多點評的話更是精妙,分享給各位 王多多的點評 「Faker是我們的處境,他是LPL永遠繞不開的一個人和話題,所以我們特別渴望在決賽跟他相遇,去直面我們的處境。 我們曾經稱他為最高的山,最長的河,以為山海就是盡頭,可是Faker用他28歲的年齡...
Thumbnail
這篇文章記錄「與情緒溫柔相處工作坊」中習得的轉化情緒方法。作者分享了自己的心得,並對情緒背後的正向意圖,結合個人情感與成長啟示,提出深度思考。並紀錄如何利用 NLP 基礎技巧來調整大腦裡的素材元素,以及如何運用逐步抽離法改善對負面情緒的影響。
上一次我們談到了目標設定和人們對於執行力的選擇 今天我們則是要來聊聊,當你為自己設定了一個目標之後,可以透過什麼樣的方式去執行、面對壓力後該如何去思考學習、並且更專注於個人的目標上~     (圖片來源:https://www.dreamstime.com/freedom-word-writ
你的思想自由嗎?你的想法清晰嗎? 你的目標是什麼?你會為了達成目標做什麼樣的努力呢? 如果你是一個會為自己設定目標的人,那你是一個會努力達成自己計劃的人嗎?或是你發現自己時常會半途而廢呢? 我們的目標不應該只是一長串的待辦事項,而是讓生活上更有動力的來源。
Thumbnail
專題式學習是一種有益於幼兒成長的教學方式,通過引發問題、實際參與和統整學習內容,幫助孩子建立持久和有影響力的學習。本文探討了專題式學習的特點和如何幫助孩子進行問題驅動的學習。
手寫書目卡是一種獨特而有效的預寫作技巧,專為那些希望從閱讀中提煉和聚焦精華想法的作家和讀者設計。這種方法可以幫助你更高效率地選擇和整理從閱讀獲得的靈感。但是,這個過程也伴隨著一些挑戰。讓我們探索這些挑戰,並提出可能的解決方案。 挑戰1 - 選擇性記錄的難度:由於書目卡的空間有限,且手寫本身就是一項
Thumbnail
言語是內在本質的外在表現,儘管說話的技巧可以培養,但是一個人的心性,卻是用再美的巧語包裝,也終究會隨著時間顯化。
Thumbnail
最近在Netflix上了一部日本動畫,言語如汽水般湧現,是以俳句為主體的動畫電影,男女主角各自都有些自己的人生課題要面對,兩人因為手機而邂逅,然後有了更多相處時間。這是一部非常適合在夏天觀看的電影,看了心情也會變得很好,非常推薦!
Thumbnail
在昨天的部分,我們進行了個股間的相關性分析,今天我們就來針對技術指標,透過設定指定條件來自動抓出個股的進出場點,以及進出場後的績效回測,這些在金融數據分析上是相當重要的一部分,為了就是確認策略是否為好策略,那我們就開始今天的教學吧!!
Thumbnail
在暸解布林通道(Bollinger Bands)前,先回想一下學生時期數學課學到的「中位數」和「標準差」,由於標準差的公式計算比較複雜,我們就用簡單且規律變化的數字序列來解釋吧! 以數字的方式來理解 假設現在有一串數列,分別是1、3、5、7、9這幾個數字。 我們可以發現這一串數列是由五個數字...
Thumbnail
借《動物農莊》一用,「剽竊」一下錢鍾書先生的靈感風格,寫一篇甚麼「讀動物農莊」。