就算我看完案例
我也一樣不是很了解菜籃分析是怎麼做的
這在之前SQL Server 有關商業智慧的書內看過很多次
但我怎麼翻書
就是沒看到書中有解釋怎麼做出來的
在以前
我也只能放著
等將來有一天我腦洞大開
突然頓悟...哈哈哈....
(結果一直沒開,直到今天....)
去年花了半年去職訓上了一個AI班
給了一堆演算法的影片課程
沒用就是沒用....
我們要的是怎麼實務應用
不是嚐試去理解艱深的理論
Prompt:
請解釋網頁內的例子讓我了解其中的含意
Gemini
stat_minus_1
Thinking
好的,這是一個非常經典的「購物籃分析」(Market Basket Analysis) 範例,目的是找出哪些商品經常被顧客一起購買。
我將為您一步步解析這個網頁範例的含意。
首先,我會先抓取網頁內容,以便進行分析。
check
WebFetch...ssociation-rules
You chose to accept 'WebFetch' once.
好的,這個範例的核心目標是分析一個商店的交易紀錄,找出 「如果顧客買了 A,他們有多大可能性也會買 B?」 這種關聯性。
整個過程可以分為三個主要步驟:
第一步:準備數據 (Create and Add Data)
範例首先建立了一個名為 test_data 的資料表,用來存放交易紀錄。
CREATE TABLE test_data (
trans_id INT, -- 交易編號
product text -- 商品名稱
);
INSERT INTO test_data VALUES
(1, 'beer'), (1, 'diapers'), (1, 'chips'),
(2, 'beer'), (2, 'diapers'),
...
(7, 'beer'), (7, 'diapers');
含意解讀:
這裡模擬了 7 筆交易 (trans_id從 1 到 7)。
每一行代表一筆交易中的一個商品。例如,第一筆交易 (ID=1) 包含了 beer (啤酒), diapers (尿布), 和 chips (洋芋片) 三樣商品。
這種格式是 MADlib 函數需要的標準輸入格式。
第二步:執行關聯規則分析 (Run Association Rules)
這是最關鍵的一步。範例使用了 madlib.assoc_rules 函數來進行分析。
SELECT * FROM madlib.assoc_rules (
.40, -- Support (支持度)
.75, -- Confidence (信賴度)
'trans_id', -- 交易 ID 欄位
'product', -- 商品欄位
'test_data', -- 資料來源表
'public', -- Schema 名稱
false);
參數含意解讀:
Support (支持度) 0.40:
定義: 指某個商品或商品組合在 所有交易 中出現的頻率。
意思: 「我們只關心那些至少在 40% 的交易中都出現過的商品組合」。這有助於過濾掉那些非常冷門、偶爾才被購買的商品,專注於分析常見的購買行為。
Confidence (信賴度/信心水準) 0.75:
定義: 指「如果顧客買了 A,那麼他們同時也買了 B」的條件機率。
意思: 「我們要找的規則,必須是『當顧客購買了前提商品(A)時,有至少 75% 的機率也會購買結果商品(B)』」。這代表了規則的可靠性。
這個函數執行後,會產生一個名為 assoc_rules 的結果表,裡面存放著所有符合上述 Support 和 Confidence 門檻的規則。
第三步:解讀分析結果 (View the Results)
最後,透過查詢 assoc_rules 這個結果表,我們就能看到挖出來的規則。
SELECT pre, post, support FROM assoc_rules
ORDER BY support DESC;
結果輸出:
pre | post | support
-----------+--------+--------------------
{diapers} | {beer} | 0.7142857142857143
{chips} | {beer} | 0.42857142857142855
結果含意解讀:
pre (LHS - Left Hand Side): 規則的前提,代表顧客已經購買的商品。
post (RHS - Right Hand Side): 規則的結果,代表顧客很可能接著購買的商品。
第一條規則: {diapers} => {beer} (尿布 => 啤酒)
意思: 「購買了尿布的顧客,很有可能也會購買啤酒」。
support = 0.714...: 代表「尿布和啤酒」這個組合在所有 7 筆交易中出現了 5 次 (5/7 ≈ 71.4%)。這是一個非常頻繁的組合。
雖然這裡沒顯示,但我們可以推斷它的 Confidence 必定大於我們設定的 75% 門檻。這意味著在所有購買了尿布的交易中,有超過 75% 的交易也包含了啤酒。
第二條規則: {chips} => {beer} (洋芋片 => 啤酒)
意思: 「購買了洋芋片的顧客,也可能購買啤酒」。
support = 0.428...: 代表「洋芋片和啤酒」這個組合在所有 7 筆交易中出現了 3 次 (3/7 ≈ 42.8%)。
總結與商業應用
這個範例成功地從原始交易數據中,挖掘出了兩條有價值的消費模式:
尿布和啤酒 是強關聯商品。
洋芋片和啤酒 也是關聯商品,但關聯性稍弱。
商店經理可以利用這個資訊來制定行銷策略,例如:
商品擺設: 將啤酒放在尿布或洋芋片附近,方便顧客一起拿取。
促銷活動: 推出「買尿布送啤酒折價券」的活動,進一步提升銷售額。
這就是關聯規則分析從數據中發現洞見,並轉化為商業價值的典型過程。











