用 Graph 技術強化推薦系統 (1): 理論篇

2024/12/16 更新2024/11/17 發佈閱讀 9 分鐘

前言

在現今的數據驅動世界，推薦系統早已成為許多平台（如電商、串流媒體、社交網路）不可或缺的一部分。然而，傳統的推薦方法如協同過濾（Collaborative Filtering）和基於內容過濾（Content-Based Filtering）各有其局限性，例如無法處理冷啟動問題或缺乏靈活性。最近在 YouTube survey 與學習 : 關於如何利用圖形資料庫（Graph Database）提升推薦系統的方法，特別是如何透過 Neo4j 等工具實現更高效的混合推薦（Hybrid Recommendation）和 k-近鄰（k-NN）推薦。

這篇 Blog 將簡要整理我所學到的內容，主要是理論的部分，從傳統推薦方法的挑戰開始，探討如何使用圖技術來提升推薦效果，下一篇老樣子會拿一個 sample dataset 實作，並在提出實作的結果與討論，那我們開始吧！

常見傳統的推薦方法與其挑戰

1. Top 10 Recommendation（熱門推薦）

方法：推薦最受歡迎的前十項目。
問題：這種方式雖然簡單直觀，但不一定能滿足用戶的個性化需求。
例子：雙十一期間，購物網站推薦最熱銷的商品，如某品牌電冰箱。但如果用戶對電冰箱毫無需求，這些推薦對於促進轉換毫無幫助。

2. Content-Based Recommendation（基於內容的推薦）

方法：根據用戶之前喜歡的內容，推薦相似的項目。
問題：靈活度較低，長期使用可能會讓用戶感到無趣。
例子：如果用戶在 Instagram 上瀏覽過狗狗影片，系統會持續推薦相似的狗狗內容。這樣用戶可能會錯過其他類型的熱門或新興內容，降低使用體驗的多樣性。

3. Collaborative Filtering（協同過濾推薦）

方法：基於用戶行為或其他用戶的行為進行推薦，依賴類似用戶的偏好來提供建議。
問題：容易形成回音室效應，推薦內容局限於過去的行為，無法發現新的興趣或突破現有偏好。
例子：用戶的觀看紀錄可能會局限於某一類型，推薦引擎很難推送新的影片或商品，讓用戶嘗試新的東西。

用 Graph 技術優化推薦：更準確、更即時

雖然傳統推薦方法已在許多應用中取得不錯的成效，但隨著數據規模和需求的提升，它們的局限性逐漸顯現。這時，Graph 技術的出現為推薦系統帶來了不同的解決方案，我們能更靈活地處理複雜的關聯數據，提升推薦的質量和多樣性。

這裡會有一個疑問：是不是這些推薦方法一定得用到 graph db ？還是現有的 relational database可以做推薦嗎？

結合協同過濾與內容過濾：Hybrid Recommendation

挑戰：協同過濾和基於內容的推薦各有優缺點，單一方法無法全面解決用戶需求。
解決方案：Graph 技術讓我們能將這兩種方法結合，實現混合推薦（Hybrid Recommendation）。透過圖形資料庫，我們可以同時考慮用戶行為與內容相似性，提供更強大的推薦效果。
優勢：
1) 增強推薦多樣性，讓用戶能同時看到熟悉與新穎的內容。
2) 解決冷啟動問題，適用於新用戶或新項目。

2. 即時推薦：Real-Time Recommendations

挑戰：傳統推薦系統通常需要離線計算，無法即時提供個性化建議。
解決方案：Neo4j 等圖形資料庫支持實時查詢，可以根據用戶當前的行為，立即生成個性化推薦。
優勢：
1) 用戶不必等待過時的推薦，能夠根據最新數據即時獲取內容。
2) 增強用戶體驗，提升互動性與轉化率。

混合推薦系統應用於電影推薦

場景：有一用戶剛看完 Toy story ，要推薦下一步他感興趣的電影。

步驟 1：建構數據模型

使用 Graph 技術將以下元素建模為節點與關係：

用戶（User）：每位用戶作為一個節點。
電影（Movie）：電影作為另一個節點。
評分關係（Rated）：用戶與電影之間的評分作為關係，包含分數作為屬性。

這樣的數據模型可反映每位用戶對不同電影的觀看與評分記錄，為推薦系統提供基礎數據。

步驟 2：推薦的 query

推薦查詢可分為以下幾個步驟執行：

找到看過 Toy Story 的用戶：查詢所有評分 Toy Story 的用戶節點

MATCH (watched:Movie {title:"Toy Story"}) <-[r1:RATED]- (user:Person)

2. 篩選評分超過 7 分的電影 :

MATCH (user) -[r2:RATED]-> (unseen:Movie)

WHERE r2.rating > 7

3. 確保電影類型與 Toy Story 相同

AND watched.genres = unseen.genres

4. 過濾出目標用戶未觀看過的電影

AND NOT ((:Person {username:"target_user"}) -[:RATED]-> (unseen))

5. 回傳與排序推薦結果

RETURN unseen.title, COUNT(*) AS recommendation_count

ORDER BY recommendation_count DESC

LIMIT 25

ref YT video: https://youtu.be/b_0Iuc3zUN4?si=vwWbIymyFxwfoyjo

K-Nearest Neighbors(KNN) 應用於電影推薦

在 Graph 技術中，k-近鄰（k-NN）推薦是一種基於相似性計算的推薦方法，常用於衡量用戶或項目之間的關聯性，尤其是當我們希望為用戶推薦與其偏好相近的內容時。

場景：(跟剛剛相同)有一用戶剛看完 Toy story ，要推薦下一步他感興趣的電影。

方法：尋找與目標用戶或項目最相似的 k 個鄰居，並根據這些鄰居的行為或評分來進行推薦。

步驟 1：餘弦相似度（Cosine Similarity）概念

餘弦相似度將每個用戶或項目視為高維向量，通過計算它們之間的角度來衡量相似性。

將每個用戶或項目視為高維向量，餘弦相似度測量它們之間的角度。
當兩個向量的方向越接近時（夾角越小），相似度越高。

步驟 2：推薦流程

計算用戶之間的餘弦相似度: 為每個用戶計算與其他用戶的相似性。
找出最相似的 k 個鄰居 : 根據餘弦相似度的結果，篩選出與目標用戶最相似的 k 個用戶。
根據鄰居的評分進行推薦: 分析這些鄰居對於其他項目的評分，並將評分較高且目標用戶未看過的項目推薦給用戶。

步驟 3 ：推薦 query

找到 Zoltan Varju 與他的鄰居（用戶）的相似度以及這些鄰居對不同電影的評分

MATCH (m:Movie) <-[r:RATED]- (b:Person) -[s:SIMILARITY]- (p:Person {name:'Zoltan Varju'})

2. 排除已評分的電影

WHERE NOT (p)-[:RATED]->(m)

3. 計算相似度與評分

WITH m, s.similarity AS similarity, r.rating AS rating

4. 按照相似度排序

ORDER BY m.name, similarity DESC

5. 選取前 3 個鄰居的評分：收集與 Zoltan Varju 最相似的 3 位鄰居對每部電影的評分

WITH m.name AS movie, COLLECT(rating)[0..3] AS ratings

6. 計算推薦評分

WITH movie, REDUCE(s = 0, i IN ratings | s + i)*1.0 / LENGTH(ratings) AS recommendation

7. 排序與限制結果：回傳最適合的 25 部電影

ORDER BY recommendation DESC

RETURN movie, recommendation LIMIT 25

小心得

在這篇筆記中，我們探索了如何使用 Neo4j 進行混合推薦和 KNN 推薦，透過 Graph 技術，能夠更靈活且準確地為用戶生成即時的推薦結果，無論是基於相似用戶還是相似內容。這種方法不僅提升了推薦的質量，也解決了許多傳統推薦系統面臨的瓶頸，例如冷啟動和數據稀疏問題。下回會拿一組 dataset ，並實作在 Neo4j 中構建節點與關係，和實作推薦系統。下次見囉～

留言

Karen的沙龍

37會員

60內容數

歡迎來到《桃花源記》專欄。這裡不僅是一個文字的集合，更是一個探索、夢想和自我發現的空間。在這個專欄中，我們將一同走進那些隱藏在日常生活中的"桃花源"——那些讓我們心動、讓我們反思、讓我們找到內心平靜的時刻和地方

Karen的沙龍的其他內容

2024/11/29

用 Graph 技術強化推薦系統 (2): 實作篇 — 相似度矩陣推薦電影

本篇文章探討如何利用電影數據集構建基於相似度的推薦系統。文章主要分為四個步驟：資料預覽、資料預處理、計算餘弦相似度及結果推論。透過這一流程，讀者將瞭解如何量化電影間的關聯性及用戶偏好，並如何生成推薦結果。

2024/11/29

用 Graph 技術強化推薦系統 (2): 實作篇 — 相似度矩陣推薦電影

2024/11/16

【Paper筆記】Graph database modeling of a 360-degree e-customer

本研究探討如何透過圖形資料庫模型來構建電子商務顧客的360度全景視圖，並使用客戶行為模型圖（CBMG）有效整合和分析客戶數據。研究強調理解顧客的行為模式和需求，並針對三種典型的購物行為類型進行分析，以提升網站設計和用戶體驗。通過Neo4j的應用，提供了可視化客戶行為模式的視角。

2024/11/16

【Paper筆記】Graph database modeling of a 360-degree e-customer

2024/04/03

推薦系統算法：監督式學習、分群和相似度

本文探討了監督式學習、分群和相似度這幾個推薦系統算法，分別討論了它們的優點、缺點以及適用場景。這些算法在推薦系統中扮演著重要角色，並透過特徵選擇與預處理、相似度度量和鄰居的選擇等關鍵因素進行深入分析。文章最後提出在選擇推薦系統算法時應該考慮的因素，以及未來的研究方向。

2024/04/03

推薦系統算法：監督式學習、分群和相似度

看更多

你可能也想看

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

在 vocus 與你一起探索內容、發掘靈感的路上，我們又將啟動新的冒險——vocus App 正式推出！現在起，你可以在 iOS App Store 下載全新上架的 vocus App。無論是在通勤路上、日常空檔，或一天結束後的放鬆時刻，都能自在沈浸在內容宇宙中。

#App#iOS#App Store

2026/01/21

方格子 vocus 官方沙龍

vocus App 正式推出｜立即下載 iOS 版，打開全新內容宇宙

#App#iOS#App Store

2026/01/21

小P趨勢投資

小P觀察｜一籃子vs單壓個股: 以00858永豐美國500大為例

市場經驗拉長之後，很多投資人都會遇到同一個問題：不是方向看錯，而是部位太集中個股，常常跟大趨勢脫節。早年的台股環境，中小股非常吃香，反而權值股不動，但QE量化寬鬆後，特別是疫情之後，後疫情時代，鈔票大量在股市走動，這些大資金只能往權值股走，因此早年小P的策略偏向中小型個股，但近年AI興起，高技術

#投資人#ETF#權值股

2026/01/15

小P趨勢投資

小P觀察｜一籃子vs單壓個股: 以00858永豐美國500大為例

#投資人#ETF#權值股

2026/01/15

Karen的沙龍

用 Graph 技術強化推薦系統 (2): 實作篇 — 相似度矩陣推薦電影

#Neo4jVisualization#GraphDatabase#CustomerBehavior

2024/11/29

Karen的沙龍

用 Graph 技術強化推薦系統 (2): 實作篇 — 相似度矩陣推薦電影

#Neo4jVisualization#GraphDatabase#CustomerBehavior

2024/11/29

Karen的沙龍

用 Graph 技術強化推薦系統 (1): 理論篇

在現今的數據驅動世界，推薦系統早已成為許多平台（如電商、串流媒體、社交網路）不可或缺的一部分。然而，傳統的推薦方法如協同過濾（Collaborative Filtering）和基於內容過濾（Content-Based Filtering）各有其局限性，例如無法處理冷啟動問題或缺乏靈活性。最近

#GraphDatabase#CustomerBehavior#Neo4jVisualization

2024/11/17

Karen的沙龍

用 Graph 技術強化推薦系統 (1): 理論篇

#GraphDatabase#CustomerBehavior#Neo4jVisualization

2024/11/17

2024/04/03

2024/04/03

如何做出不用糾結的選擇？從簡化選項到愛你所選

選擇無所不在，且日益增多。如何從過多的選項中做出明智的決定？本文介紹四種策略，包括字典序排名法、逐步排除法、自訂排行榜與辨識捷思，以幫助讀者克服選擇障礙。此外，文章還引導讀者思考「最大化」與「滿足化」的選擇心態，提供不同觀點，克服選擇帶來的糾結情緒。

#最好的選擇#排名#年度

2024/01/18

那個媽媽的沙龍

如何做出不用糾結的選擇？從簡化選項到愛你所選

#最好的選擇#排名#年度

2024/01/18

AI.ESG.數位轉型顧問沈重宗

使用AI協助商品敘述和推薦精準化

要使用AI協助商品敘述和推薦精準化，可以採取以下幾個步驟： 1. 收集和分析大量的數據：使用NLP技術分析商品屬性，讓商品能夠快速貼標。更開發客戶意圖標籤及商品知識圖譜，以便更好地了解消費者需求[1]。 2. 利用AI技術：選擇適合的AI技術，如機器學習算法、自然語言処理等，以便更好

2023/12/21

AI.ESG.數位轉型顧問沈重宗

使用AI協助商品敘述和推薦精準化

2023/12/21

我是 Yeti，不是雪球的沙龍

洞悉「粉專推薦公式」，讓你的知識內容被看見

我對於粉絲專頁推薦功能的三個想法第一、往好處想 - 無論如何你的粉專內容都將隨著FB的政策觸及到更多人第二、但往壞處想 - 你的內容有可能因觸及到不這麼喜歡的人被隱藏再者、往更壞的方向想 - 你可能吸引到並非真正認同粉專「核心價值」的受眾等等，第三點怎麼想都比第二點好呀？要回答這問題就得

#粉專#互動#經營

2023/11/17

我是 Yeti，不是雪球的沙龍

洞悉「粉專推薦公式」，讓你的知識內容被看見

#粉專#互動#經營

2023/11/17

S編的沙龍

KSS Console | 資料庫標籤生成的行銷運用場景

內容介紹：什麼是資料庫標籤生成、標籤生成的優勢以及如何實際運用在行銷場景。適合閱讀對象：數位行銷或是產品單位的團隊成員。

#用戶#行銷#標籤

2023/09/08

S編的沙龍

KSS Console | 資料庫標籤生成的行銷運用場景

內容介紹：什麼是資料庫標籤生成、標籤生成的優勢以及如何實際運用在行銷場景。適合閱讀對象：數位行銷或是產品單位的團隊成員。

#用戶#行銷#標籤

2023/09/08

IEO 國際財經科技前沿觀察

Twitter 開源推薦演算法，從中了解社群媒體推送邏輯

Musk 接手Twitter後的一大工程，就是要把推特的演算法開源，讓Twitter成為更公開透明的社群媒體，並能讓大眾檢視、糾錯。當然Musk也知道風險就是更透明的演算法，會讓更多人更容易針對推薦算法優化甚至濫用。但這會是一個動態的過程，馬斯克覺得試誤的價值是很高的。

#Twitter#演算法#公開文章

2023/04/01

IEO 國際財經科技前沿觀察

Twitter 開源推薦演算法，從中了解社群媒體推送邏輯

#Twitter#演算法#公開文章

2023/04/01

聲歷其境 All Around You的沙龍

【電商原來是醬】自帶流量的推薦引擎，精準受眾強化轉換率

在這個數位媒體時代，各大品牌與電商無不爭相獲取注意力。如果有一個可以利用大數據進行自動化行銷的工具該有多好？禾多移動科技創媒聽到了！Podcast 節目《電商原來是醬》邀請到創辦人林志堯 Wing 來到現場，談談什麼是推薦引擎，如何自帶流量？

2022/03/29

聲歷其境 All Around You的沙龍

【電商原來是醬】自帶流量的推薦引擎，精準受眾強化轉換率

2022/03/29

Liao Yoshi的沙龍

【AI 人工智慧】推薦系統

隨著網路以及數位化的興起，資料比以往更加的容易傳播以及儲存，過去使用者總是需要主動式的去獲取重要的資訊，然而，現在每天數以萬計的海量資料，我們是否已經漸漸變成被動式的接收各種重要或不重要的資訊了呢？

#人工智慧#Artificialintelligence

2020/11/13

Liao Yoshi的沙龍

【AI 人工智慧】推薦系統

#人工智慧#Artificialintelligence

2020/11/13

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News