Graph RAG 簡介

美國女科學家Kiki

2024/12/07 更新2024/12/07 發佈閱讀 3 分鐘

檢索增強生成（RAG）在檢索特定資訊時有效，但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要（QFS）而非明確的資訊檢索。

QFS方法的可擴展性不足

傳統QFS方法缺乏處理典型RAG系統所能索引的大量文本的能力。這使得有效回答大規模文本語料庫的問題變得困難。

LLMs的上下文長度限制

現代大型語言模型（LLMs）能夠使用有限長度的來儲存輸入文字，但在處理非常大的文字語料庫時可能超出上下文長度的限制。這可能導致長文中間部分的資訊丟失風險。

什麼是Graph RAG？

Graph RAG（圖檢索增強生成）是一種利用LLMs構建的實體知識圖進行QFS的方法。這種方法使用以下兩階段過程來回答整個語料庫的全域問題：從源文件生成實體知識圖。

預先為密切相關的實體群組生成群組摘要。當收到問題時，使用每個群組摘要生成部分回答，最後將這些部分回答整合為全域回答。

Graph RAG的優點

可擴展性：Graph RAG能夠高效處理大量文本數據。通過利用群組摘要，可以分層地組織必要資訊，實現高效的檢索和摘要。改善全面性和多樣性：與傳統RAG方法相比，Graph RAG在回答的全面性（對問題的整體覆蓋）和多樣性（提供不同觀點和洞見）方面都表現出色。降低標記成本：使用群組摘要可以大幅減少所需的標記數量。特別是根層級的群組摘要在保持高效率的同時，顯著降低了標記成本。

Graph RAG的步驟

源文件的文字提取和分塊：從源文件提取文字並分割成可處理的塊。塊大小的選擇需要平衡提取精確度和效率。
從文字塊提取元素實例：從每個塊中提取實體（節點）及其關係（邊）。使用LLM提取實體名稱、類型、描述和關係描述。
生成元素實例摘要：摘要提取的實體和關係，生成描述每個實體和關係的文字塊。這是通過多次LLM調用完成的。
檢測圖社群：使用提取的實體和關係構建圖。使用群組檢測算法（如Leiden）分析此圖，識別密切相關的實體群組。
生成群組摘要：為每個群組生成實體和關係的摘要。這創建了一個全面的報告，有助於理解整個數據集的結構和含義。
使用群組摘要進行問答：當收到問題時，隨機打亂群組摘要並分割成指定標記大小的塊。為每個塊生成部分回答，然後整合這些部分回答以生成最終的全域回答。

總結

Graph RAG是一種結合LLMs和圖技術的新方法，能夠高效地從整個語料庫進行問答。與傳統RAG方法相比，它大幅提高了問題回答的全面性和多樣性。此外，通過降低標記成本，實現了高效的資訊檢索和摘要。

Reference

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

#AI人工智慧

#AI深度學習

#大語言模型

留言

留言分享你的想法！

Kiki的沙龍

5會員

69內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

Kiki的沙龍的其他內容

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

你可能也想看

vocus for Business 的沙龍

《玉山 Unicard 原來是你的美好生活地圖？格編還以為是百大通路回饋 List！》

你有想過嗎？如果把你過去一週、甚至一整個月的信用卡帳單全部攤開，會變成什麼畫面？😉 格編最近做了一個小實驗：把每一筆消費都丟到地圖上標記，結果它變成一張非常誠實的「生活熱力圖」。把每一筆刷卡都丟到地圖上之後，哪一條路上出現最多「小點點」，就代表你最常走那一條路；哪一個區塊被畫滿圈圈、標記最多店家

#玉山銀行#玉山Unicard#信用卡

2025/12/25

vocus for Business 的沙龍

《玉山 Unicard 原來是你的美好生活地圖？格編還以為是百大通路回饋 List！》

你有想過嗎？如果把你過去一週、甚至一整個月的信用卡帳單全部攤開，會變成什麼畫面？😉 格編最近做了一個小實驗：把每一筆消費都丟到地圖上標記，結果它變成一張非常誠實的「生活熱力圖」。把每一筆刷卡都丟到地圖上之後，哪一條路上出現最多「小點點」，就代表你最常走那一條路；哪一個區塊被畫滿圈圈、標記最多店家

#玉山銀行#玉山Unicard#信用卡

2025/12/25

老蔡書評的沙龍

論文題目選定策略

先選擇有興趣的主題慢慢聚焦(研究動機) 回答論文題目關鍵詞語擇定的理由(研究動機、文獻探討) 參考、比較類似主題論文研究方法(文獻探討、研究方法) 研究題目背景資料(研究動機、文獻探討) 相關概念形成歷程(研究動機、文獻探討) 找到類似的碩博士論文參考篇章架構擬定小標題(目錄) 避開

2024/08/06

老蔡書評的沙龍

論文題目選定策略

先選擇有興趣的主題慢慢聚焦(研究動機) 回答論文題目關鍵詞語擇定的理由(研究動機、文獻探討) 參考、比較類似主題論文研究方法(文獻探討、研究方法) 研究題目背景資料(研究動機、文獻探討) 相關概念形成歷程(研究動機、文獻探討) 找到類似的碩博士論文參考篇章架構擬定小標題(目錄) 避開

2024/08/06

漫步筆記的沙龍

其實除了研究所需，觀察也是靈感的來源、也可以是日常生活的樂趣。

#觀察#研究#質性

2024/07/20

漫步筆記的沙龍

其實除了研究所需，觀察也是靈感的來源、也可以是日常生活的樂趣。

#觀察#研究#質性

2024/07/20

Eureka的沙龍

理論該怎麼用? 從零開始學習選擇與運用的技巧

本文介紹不同類型的理論，讓研究者理解這些理論在研究的應用及其意義。說明了分析型理論、解釋型理論、預測型理論、解釋與預測型理論、設計與行動型理論，以及使用理論時的考量和如何使用理論進行研究的五步驟。

#資訊#文章#學術

2024/06/18

Eureka的沙龍

理論該怎麼用? 從零開始學習選擇與運用的技巧

本文介紹不同類型的理論，讓研究者理解這些理論在研究的應用及其意義。說明了分析型理論、解釋型理論、預測型理論、解釋與預測型理論、設計與行動型理論，以及使用理論時的考量和如何使用理論進行研究的五步驟。

#資訊#文章#學術

2024/06/18

小蝌蚪寫作文的沙龍

佳作－１１３國中會考（標題現象分析）

這篇文章討論了現今網路資訊中使用引人注目的標題，吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心，因而點閱。然而，這些標題不一定都是百分之百的真實，讀者需要保持冷靜的思緒，以避免誤導。請給小編一個喜歡，或者打賞稿費贊助，讓我們更有動力創作更多的內容。

#標題#佳作#作文

2024/06/01

小蝌蚪寫作文的沙龍

佳作－１１３國中會考（標題現象分析）

這篇文章討論了現今網路資訊中使用引人注目的標題，吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心，因而點閱。然而，這些標題不一定都是百分之百的真實，讀者需要保持冷靜的思緒，以避免誤導。請給小編一個喜歡，或者打賞稿費贊助，讓我們更有動力創作更多的內容。

#標題#佳作#作文

2024/06/01

承熙的安心投資世界

我方格子第二份電子書(數位商品)為何還是選根基？

我方格子第二份電子書(數位商品)為何還是選根基？

#數位商品#電子書#創作有價

2024/05/05

承熙的安心投資世界

我方格子第二份電子書(數位商品)為何還是選根基？

我方格子第二份電子書(數位商品)為何還是選根基？

#數位商品#電子書#創作有價

2024/05/05

王啟樺的沙龍

【UCLA統計與資料科學系博士後研究員的知識工作生產線】

紅色良品（等級0）- 資訊源索引功能：將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。藍色良品（等級1）- 資訊塊功能：將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深

#UCLA#Obsidian#知識生產

2024/04/24

王啟樺的沙龍

【UCLA統計與資料科學系博士後研究員的知識工作生產線】

紅色良品（等級0）- 資訊源索引功能：將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。藍色良品（等級1）- 資訊塊功能：將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深

#UCLA#Obsidian#知識生產

2024/04/24

查爾斯的身心靈沙龍

#71 重組外界資訊，成為內在真知識

從自己精神世界中創造出來的靈感，才是屬於自己的真知識。

2024/04/20

查爾斯的身心靈沙龍

#71 重組外界資訊，成為內在真知識

從自己精神世界中創造出來的靈感，才是屬於自己的真知識。

2024/04/20

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News