推薦系統算法：監督式學習、分群和相似度

2024/04/03 更新2024/04/03 發佈閱讀 4 分鐘

在思考推薦名單應該用什麼樣的算法來進行會比較好，因此 survey 了幾個算法，包含監督式學習、分群、相似度，以下針對各算法進行討論。

Photo by Alesia Kaz on Unsplash

1. 監督式學習

監督式學習需要有明確的輸入（特徵）和輸出（目標變量）的歷史數據。透過這種方法，可以基於過去的數據預測未來的行為或分類。例如，有關於用戶以往購買歷史的數據，可提取特徵（如購買頻率、平均消費金額、購買類別等），並使用這些特徵來預測哪些用戶最有可能對某個產品感興趣。

◾ 優點直接目標導向，可以針對特定問題（如預測誰會購買某個產品）進行優化。易於解釋，因為可以明確知道哪些特徵對預測結果有影響。

◾ 缺點需要大量的歷史數據。如果數據集中的模式隨時間變化，模型可能需要定期重新訓練。

2. 分群

分群是一種無監督學習方法，它將數據集分成若干個組或“群”，這些群體內的成員比其他群體內的成員更相似。這種方法不需要預先標注的數據，而是根據數據本身的特性進行分組。例如，可以根據用戶的購買行為、瀏覽習慣等特徵將用戶分成不同的群體，然後針對每個群體推薦適合它們的產品或服務。

◾ 優點不需要標注數據，適用於沒有明確目標變量的場景。可以發現數據中未知的模式或結構，有助於更好地了解用戶群體。

◾ 缺點結果的解釋性可能不如監督式學習，因為分群是根據數據本身的相似性進行的，而不是針對特定預測目標。群體的定義可能隨時間和數據的變化而變化，需要定期重新評估和調整群體。

3. 相似度

這其實是一種更細化的策略，可以視為一種特殊形式的分群，更加注重個體間的相似性而非將個體分配到廣泛的群組中。

用戶基於相似度的推薦（User-Based Collaborative Filtering）：這種方法首先計算用戶間的相似度，然後為一個用戶推薦他相似用戶喜歡的產品。相似度可以通過各種度量來計算，如餘弦相似度、皮爾森相關係數或傑卡德相似度等。
物品基於相似度的推薦（Item-Based Collaborative Filtering）：這方法首先計算物品之間的相似度。如果一個用戶喜歡某個產品，系統會推薦與該產品相似的其他產品。

關鍵點在於：

1) 特徵選擇與預處理：為了準確計算相似度，選擇能夠代表用戶或物品特性的特徵。

對於 user 選擇包括他們的購買歷史、瀏覽行為、評分和偏好等。
對於物品，可以是類別、品牌、價格等屬性。

2)相似度度量：選擇合適的相似度度量非常關鍵。餘弦相似度適用於度量基於向量空間的相似性，而傑卡德相似度適用於比較基於集合的相似性。

3)鄰居的選擇：在基於用戶或物品的方法中，你需要決定考慮多少個「鄰居」（即相似的用戶或物品）。選擇太少可能不夠代表性，太多則可能引入噪聲。

4)評估與優化：使用適當的評估指標（如精確度、召回率、F1分數等）來評估推薦系統的性能，並根據反饋進行優化。與廣義的分群方法相比，基於客戶樣貌相似度的推薦更注重於細粒度的個體級相似性，能夠提供更個性化的推薦。這種方法適用於希望深入挖掘用戶偏好和行為模式的場景，可以大大提高推薦的相關性和用戶滿意度。然而，它也要求有足夠的數據支持以計算相似度，以及合適的算法來處理這些數據。

小結

監督式學習提供了針對特定目標導向問題的直接解決方案，但它依賴於大量的標注數據和模型的定期更新以適應數據變化。分群方法作為一種無監督學習技術，能夠揭示數據中的隱含模式和結構，適合於沒有明確目標變量的場景，但其結果的解釋性可能不如監督式學習強。相似度方法，特別是在推薦系統中，通過計算用戶或物品間的相似度來提供個性化推薦，雖然可以提高推薦的準確度和相關性，但同樣需要注意特徵選擇、相似度度量以及鄰居選擇等關鍵因素。

因此，在選擇推薦系統算法時，應考慮算法的適用性、數據的可用性、系統的實現複雜度以及期望達到的推薦效果。透過綜合考慮這些因素，可以選擇最適合當前應用需求的推薦算法。後續將基於這幾個算法進行實驗與成效分析並且驗證！

留言

Karen的沙龍

37會員

60內容數

歡迎來到《桃花源記》專欄。這裡不僅是一個文字的集合，更是一個探索、夢想和自我發現的空間。在這個專欄中，我們將一同走進那些隱藏在日常生活中的"桃花源"——那些讓我們心動、讓我們反思、讓我們找到內心平靜的時刻和地方

Karen的沙龍的其他內容

2024/11/29

用 Graph 技術強化推薦系統 (2): 實作篇 — 相似度矩陣推薦電影

本篇文章探討如何利用電影數據集構建基於相似度的推薦系統。文章主要分為四個步驟：資料預覽、資料預處理、計算餘弦相似度及結果推論。透過這一流程，讀者將瞭解如何量化電影間的關聯性及用戶偏好，並如何生成推薦結果。

2024/11/29

用 Graph 技術強化推薦系統 (2): 實作篇 — 相似度矩陣推薦電影

2024/11/17

用 Graph 技術強化推薦系統 (1): 理論篇

在現今的數據驅動世界，推薦系統早已成為許多平台（如電商、串流媒體、社交網路）不可或缺的一部分。然而，傳統的推薦方法如協同過濾（Collaborative Filtering）和基於內容過濾（Content-Based Filtering）各有其局限性，例如無法處理冷啟動問題或缺乏靈活性。最近

2024/11/17

用 Graph 技術強化推薦系統 (1): 理論篇

2024/11/16

【Paper筆記】Graph database modeling of a 360-degree e-customer

本研究探討如何透過圖形資料庫模型來構建電子商務顧客的360度全景視圖，並使用客戶行為模型圖（CBMG）有效整合和分析客戶數據。研究強調理解顧客的行為模式和需求，並針對三種典型的購物行為類型進行分析，以提升網站設計和用戶體驗。通過Neo4j的應用，提供了可視化客戶行為模式的視角。

2024/11/16

【Paper筆記】Graph database modeling of a 360-degree e-customer

看更多

你可能也想看

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》，由臺灣劇團「晃晃跨幅町」製作，本文將以從舞台符號、聲音與表演調度切入，討論海妲・蓋柏樂在父權社會結構下的困境，並結合榮格心理學與馮．法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析，理解女人何以走向精神性的操控、毀滅與死亡。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

黃郁書的沙龍

《海妲．蓋柏樂》：女性困境與「永恆少年」的毀滅衝動

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/05

陳沅綦的沙龍

柏林劇團《三便士歌劇》：巴里．柯斯基的經典再造，與布萊希特劇場的當代轉向

本文分析導演巴里・柯斯基（Barrie Kosky）如何運用極簡的舞臺配置，將布萊希特（Bertolt Brecht）的「疏離效果」轉化為視覺奇觀與黑色幽默，探討《三便士歌劇》在當代劇場中的新詮釋，並藉由舞臺、燈光、服裝、音樂等多方面，分析該作如何在保留批判核心的同時，觸及觀眾的觀看位置與人性幽微。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/11