使用R語言進行購物籃分析(Market Basket Analysis)

更新於 發佈於 閱讀時間約 5 分鐘
在資料分析領域中,購物籃分析又稱關聯分析,從大量的交易資料中,探勘出在資料間具有相關性的隱藏規則與商業知識。購物籃分析最經典的就是啤酒與尿布的例子了!
世界最大的零售商沃爾瑪(Wal-mart)就運用關聯分析的技術,從每日大量的商品交易資料中進行消費者購買商品間的關聯分析,結果竟然意外發現星期四晚上通常同時購買啤酒與尿布。
現在就來看看要如何利用R語言進行關聯分析吧!
首先,先載入關聯分析所需要用到的arules相關套件:
install.packages("arules")
library(arules)
install.packages("arulesViz")
library(arulesViz)
下載後打開該資料檔,會發現它跟我們平常用來分析的資料檔並不一樣,是屬於交易資料形式。
因此我們必須採用read.transaction來讀取(交易資料與一般data frame不同,為每次買了甚麼商品)
groceries = read.transactions("C:\\Users\\user\\Desktop\\groceries.csv",sep=",")
讀取完後可以使用summary函式看一下資料的摘要。
summary(groceries)
執行結果如下,可以發現統計出了幾個比較頻繁出現的字詞,
接下來呢,我們用inspect函式來看前面五筆資料。
inspect(groceries[1:5])
除了看商品品項之外,也可以使用size函式,來看單次購買的品項有幾種商品。
接著呢,我們再利用itemFrequency函式,去列出每一項品項佔的比例,藉由這個函數,也可以找出出現頻率比較高的商品。
itemFrequency(groceries)
接下來就是重頭戲拉!  看到密密麻麻的比例我們要怎麼讓它變得比較好理解呢?
因此我們接著來進行畫圖的動作。
用itemFrequencyPlot繪出產品佔的比例圖,support參數是支持度的意思(通常會默認是0.1,如果不使用的話,則會列出所有產品品項,會很亂喔。)
itemFrequencyPlot(groceries,topN = 10)
itemFrequencyPlot(groceries,topN = 10,type = "absolute")
itemFrequencyPlot(groceries,topN = 10,horiz = T,
main = "Item Frequency",xlab = "Relative Frequency")

itemFrequencyPlot(groceries,support = 0.1,
main = "Item Frequency with S = 0.1",ylab = "Relative Frequency")
跑完code後圖就會出來啦!
一看就知道原來whole milk出現的頻率是最高的
再來,便是載入在關聯分析中最重要的演算法之一 —> Apriori:
Apriori是最經典的關聯分析挖掘演算法,原理清晰且實現方便,可以說是學習關聯分析的入門演算法,但效率低;而Eclat演算法則在運行效率方面有所提升。
載入以下程式碼:
apriori(groceries)

rule1 = apriori(groceries,parameter = list(support = 0.006,confidence = 0.3))
summary(rule1)
apriori演算法大概是這樣運作的,我們必須要設定support以及confidence:
  • 支持度(support):「規則」在資料內具有普遍性,也就是這些 A 跟 B 同時出現的機率多少。
  • 信賴度(confidence):「規則」要有一定的信心水準,也就是當購買 A 狀態下,也會購買 B 的條件機率。
等rule跑出來之後,要觀察需要使用inspect()的函式:
inspect(rule1[1:5])
執行結果如下,
lhs=>rhs 代表買左邊也會買右邊的意思,而支持度與信賴度,則分別代表了普遍性與信心水準。
例如,第一個關聯規則可以解釋為,「若某人單次消費購買的是pot plants=> 也會購買whole milk」
而lift=1.5 > 1,表示了這個規則相當具有正相關。
除此之外,我們也可以針對特定商品產生關連規則。
例如: 用yogurt這個產品來產生一個相關聯的rules
其中%pin%"yog",代表的意思是尋找找商品名稱有 “yog"的品項,
yogurtr1 = subset(rule1,items %pin% "yog")
summary(yogurtr1)
inspect(yogurtr1[1:15])
執行結果:
關於關聯分析就先講到這裡啦,在資料的世界裡,有太多太多關聯等著我們去挖掘,每個細微的地方,都可能隱藏著商機,這也是為甚麼有越來越多公司花大錢也要進行資料探勘,常見的電影推薦、購物網站商品推薦,其實都是關聯分析的運用。
avatar-img
14會員
17內容數
還在為不知道怎麼面試而煩惱嗎? 還在為苦無面試機會而沮喪嗎? 別擔心~讓我們一起面對! 在專題中,我將以自身經驗傳授如何撰寫履歷以及分享面試經驗。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
格蘭特的沙龍 的其他內容
在工作中遇到的問題實在是千奇百怪,跟C++搏鬥了好一陣子了,仍然還是跟它不是很熟,最近工作上更遇到了bug之王的segmentation fault錯誤,雖然還沒找出root cause,不過在找了一陣子未果後,想說透過更系統性的方法來調查甚麼原因會導致segmentation fault。
在工作中遇到的問題實在是千奇百怪,跟C++搏鬥了好一陣子了,仍然還是跟它不是很熟,最近工作上更遇到了bug之王的segmentation fault錯誤,雖然還沒找出root cause,不過在找了一陣子未果後,想說透過更系統性的方法來調查甚麼原因會導致segmentation fault。
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Amazon 與 Walmart 提供的後台報表是非常先進的報表,強調在數據中發現洞察並直接給出可行的建議。Google 的第三方 Cookie 保留決定對行銷人員、廣告商及 Martech 工具產生重大影響。Email 成效驗證充滿疑點,應注重「到達率」、「打開率」與「點擊率」。
Thumbnail
面對琳瑯滿目的產品,不知道該如何分配資源?如果有的話,那麼今天要介紹的 波士頓矩陣 就能幫助你解決這個煩惱!波士頓矩陣就像是個產品成長指南,將產品分為四種不同類型:明星、問題、金牛、瘦狗。透過分析產品的市場成長率和相對市場佔有率,就能了解產品的現況與發展潛力,進而制定合適的策略。
Thumbnail
上次有分享一篇文章EXCEL小技巧 | 快速統計資料出現的次數(QNIQUE+COUNTIF) 大致上的內容是這樣的(請看VCR⬇️) 把這個教學發到Dcard、IG、TIKTOK後,許多人提出了以下的問題 於是這篇文章就把飲料的變數,糖、冰、大小杯給加進來統計資料與分析 ⚒️分
Thumbnail
價格也可以稱為促銷策略的一個非常重要的部分,下寬和在「無痛買單」中,說明了我們每天都在接受「每日低價策略」與「吸客噱頭」策略,這些策略不僅豐富了企業的行銷手段,也為消費者帶來了更多的選擇與便利。 「每日低價策略」(Every day low price, EDLP),一直是美國零售巨頭沃爾瑪(Wa
Thumbnail
觀察家知道消費者購物商品的地方不會固定,即使是線上購物消費者今天在 Yahoo 消費,明天可能出現在蝦皮商城購物,因為每一間商店所販售的商品也不一樣,提供的優惠也不盡相同。
Thumbnail
超市業者利用心理學來引導消費者購買,例如將蔬果擺在入口處,誘使消費者選擇健康商品,增加購物清單上未列的商品。購物習慣和慣性行為也會影響消費者的購買決策,企業可以透過數據分析和心理學應用,提高行銷精準度。然而,企業需在行銷和顧客隱私之間取得平衡,並抓住顧客生活中的關鍵轉折點,以提升收益。
Thumbnail
通過觀察消費需求的變化圖表,透過人工智慧分析,提供營運商品的銷售資料,自動比較銷售趨勢,並提供觀察家建議。此外,角度數據還分析出麥當勞的商品銷售手法,並解析其成功原因。文章主要探討如何透過人工智慧來分析銷售趨勢與找出成功企業的真正原因。
Thumbnail
這篇文章討論了消費者意向分析所涉及的消費市場商品銷售的變化。討論了觀察家透過角度數據資料庫的線圖,以及人工智慧的應用。文章也提及了消費者的購物週期及保健食品的消費趨勢,以及 RMN 商業模式。最後,強調了角度數據的觀察家應該始終關注最新的消費資料。
Thumbnail
阿福投資週報內容包括投資洞察、投資組合個股分析、買賣策略與對帳單、觀盤重點與投資計畫,透過方格子訂閱專題每週發佈,提供投資朋友參考。 ❶ 投資洞察:便利商店業投資策略 便利商店業是具備護城河的市場,營運穩健成長,根據2023年9月資料顯示,統一超在台灣的市佔率為51.1%,全家為31.6%,兩家
本文探討了RWW法則、PMI思考法和停、看、聽的應用在商業、教育、服務等領域的應用。透過理論與實證相結合的探討,深入分析了不同的思考方式對解決問題的關鍵作用。
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
Amazon 與 Walmart 提供的後台報表是非常先進的報表,強調在數據中發現洞察並直接給出可行的建議。Google 的第三方 Cookie 保留決定對行銷人員、廣告商及 Martech 工具產生重大影響。Email 成效驗證充滿疑點,應注重「到達率」、「打開率」與「點擊率」。
Thumbnail
面對琳瑯滿目的產品,不知道該如何分配資源?如果有的話,那麼今天要介紹的 波士頓矩陣 就能幫助你解決這個煩惱!波士頓矩陣就像是個產品成長指南,將產品分為四種不同類型:明星、問題、金牛、瘦狗。透過分析產品的市場成長率和相對市場佔有率,就能了解產品的現況與發展潛力,進而制定合適的策略。
Thumbnail
上次有分享一篇文章EXCEL小技巧 | 快速統計資料出現的次數(QNIQUE+COUNTIF) 大致上的內容是這樣的(請看VCR⬇️) 把這個教學發到Dcard、IG、TIKTOK後,許多人提出了以下的問題 於是這篇文章就把飲料的變數,糖、冰、大小杯給加進來統計資料與分析 ⚒️分
Thumbnail
價格也可以稱為促銷策略的一個非常重要的部分,下寬和在「無痛買單」中,說明了我們每天都在接受「每日低價策略」與「吸客噱頭」策略,這些策略不僅豐富了企業的行銷手段,也為消費者帶來了更多的選擇與便利。 「每日低價策略」(Every day low price, EDLP),一直是美國零售巨頭沃爾瑪(Wa
Thumbnail
觀察家知道消費者購物商品的地方不會固定,即使是線上購物消費者今天在 Yahoo 消費,明天可能出現在蝦皮商城購物,因為每一間商店所販售的商品也不一樣,提供的優惠也不盡相同。
Thumbnail
超市業者利用心理學來引導消費者購買,例如將蔬果擺在入口處,誘使消費者選擇健康商品,增加購物清單上未列的商品。購物習慣和慣性行為也會影響消費者的購買決策,企業可以透過數據分析和心理學應用,提高行銷精準度。然而,企業需在行銷和顧客隱私之間取得平衡,並抓住顧客生活中的關鍵轉折點,以提升收益。
Thumbnail
通過觀察消費需求的變化圖表,透過人工智慧分析,提供營運商品的銷售資料,自動比較銷售趨勢,並提供觀察家建議。此外,角度數據還分析出麥當勞的商品銷售手法,並解析其成功原因。文章主要探討如何透過人工智慧來分析銷售趨勢與找出成功企業的真正原因。
Thumbnail
這篇文章討論了消費者意向分析所涉及的消費市場商品銷售的變化。討論了觀察家透過角度數據資料庫的線圖,以及人工智慧的應用。文章也提及了消費者的購物週期及保健食品的消費趨勢,以及 RMN 商業模式。最後,強調了角度數據的觀察家應該始終關注最新的消費資料。
Thumbnail
阿福投資週報內容包括投資洞察、投資組合個股分析、買賣策略與對帳單、觀盤重點與投資計畫,透過方格子訂閱專題每週發佈,提供投資朋友參考。 ❶ 投資洞察:便利商店業投資策略 便利商店業是具備護城河的市場,營運穩健成長,根據2023年9月資料顯示,統一超在台灣的市佔率為51.1%,全家為31.6%,兩家
本文探討了RWW法則、PMI思考法和停、看、聽的應用在商業、教育、服務等領域的應用。透過理論與實證相結合的探討,深入分析了不同的思考方式對解決問題的關鍵作用。