Graph RAG 簡介

更新 發佈閱讀 3 分鐘

檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。


QFS方法的可擴展性不足

傳統QFS方法缺乏處理典型RAG系統所能索引的大量文本的能力。這使得有效回答大規模文本語料庫的問題變得困難。

LLMs的上下文長度限制

現代大型語言模型(LLMs)能夠使用有限長度的來儲存輸入文字,但在處理非常大的文字語料庫時可能超出上下文長度的限制。這可能導致長文中間部分的資訊丟失風險。


什麼是Graph RAG?


Graph RAG(圖檢索增強生成)是一種利用LLMs構建的實體知識圖進行QFS的方法。這種方法使用以下兩階段過程來回答整個語料庫的全域問題:從源文件生成實體知識圖。

預先為密切相關的實體群組生成群組摘要。當收到問題時,使用每個群組摘要生成部分回答,最後將這些部分回答整合為全域回答。


Graph RAG的優點

可擴展性:Graph RAG能夠高效處理大量文本數據。通過利用群組摘要,可以分層地組織必要資訊,實現高效的檢索和摘要。改善全面性和多樣性:與傳統RAG方法相比,Graph RAG在回答的全面性(對問題的整體覆蓋)和多樣性(提供不同觀點和洞見)方面都表現出色。降低標記成本:使用群組摘要可以大幅減少所需的標記數量。特別是根層級的群組摘要在保持高效率的同時,顯著降低了標記成本。


Graph RAG的步驟

  1. 源文件的文字提取和分塊:從源文件提取文字並分割成可處理的塊。塊大小的選擇需要平衡提取精確度和效率。
  2. 從文字塊提取元素實例:從每個塊中提取實體(節點)及其關係(邊)。使用LLM提取實體名稱、類型、描述和關係描述。
  3. 生成元素實例摘要:摘要提取的實體和關係,生成描述每個實體和關係的文字塊。這是通過多次LLM調用完成的。
  4. 檢測圖社群:使用提取的實體和關係構建圖。使用群組檢測算法(如Leiden)分析此圖,識別密切相關的實體群組。
  5. 生成群組摘要:為每個群組生成實體和關係的摘要。這創建了一個全面的報告,有助於理解整個數據集的結構和含義。
  6. 使用群組摘要進行問答:當收到問題時,隨機打亂群組摘要並分割成指定標記大小的塊。為每個塊生成部分回答,然後整合這些部分回答以生成最終的全域回答。


總結

Graph RAG是一種結合LLMs和圖技術的新方法,能夠高效地從整個語料庫進行問答。與傳統RAG方法相比,它大幅提高了問題回答的全面性和多樣性。此外,通過降低標記成本,實現了高效的資訊檢索和摘要。


Reference

  1. From Local to Global: A Graph RAG Approach to Query-Focused Summarization
留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
5會員
67內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
不是每個人都適合自己操盤,懂得利用「專業」,才是績效拉開差距的開始
Thumbnail
先選擇有興趣的主題慢慢聚焦(研究動機) 回答論文題目關鍵詞語擇定的理由(研究動機、文獻探討) 參考、比較類似主題論文研究方法(文獻探討、研究方法) 研究題目背景資料(研究動機、文獻探討) 相關概念形成歷程(研究動機、文獻探討) 找到類似的碩博士論文參考篇章架構 擬定小標題(目錄) 避開
Thumbnail
先選擇有興趣的主題慢慢聚焦(研究動機) 回答論文題目關鍵詞語擇定的理由(研究動機、文獻探討) 參考、比較類似主題論文研究方法(文獻探討、研究方法) 研究題目背景資料(研究動機、文獻探討) 相關概念形成歷程(研究動機、文獻探討) 找到類似的碩博士論文參考篇章架構 擬定小標題(目錄) 避開
Thumbnail
其實除了研究所需,觀察也是靈感的來源、也可以是日常生活的樂趣。
Thumbnail
其實除了研究所需,觀察也是靈感的來源、也可以是日常生活的樂趣。
Thumbnail
本文介紹不同類型的理論,讓研究者理解這些理論在研究的應用及其意義。說明了分析型理論、解釋型理論、預測型理論、解釋與預測型理論、設計與行動型理論,以及使用理論時的考量和如何使用理論進行研究的五步驟。
Thumbnail
本文介紹不同類型的理論,讓研究者理解這些理論在研究的應用及其意義。說明了分析型理論、解釋型理論、預測型理論、解釋與預測型理論、設計與行動型理論,以及使用理論時的考量和如何使用理論進行研究的五步驟。
Thumbnail
這篇文章討論了現今網路資訊中使用引人注目的標題,吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心,因而點閱。然而,這些標題不一定都是百分之百的真實,讀者需要保持冷靜的思緒,以避免誤導。請給小編一個喜歡,或者打賞稿費贊助,讓我們更有動力創作更多的內容。
Thumbnail
這篇文章討論了現今網路資訊中使用引人注目的標題,吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心,因而點閱。然而,這些標題不一定都是百分之百的真實,讀者需要保持冷靜的思緒,以避免誤導。請給小編一個喜歡,或者打賞稿費贊助,讓我們更有動力創作更多的內容。
Thumbnail
紅色良品(等級0)- 資訊源索引 功能:將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。 藍色良品(等級1)- 資訊塊 功能:將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深
Thumbnail
紅色良品(等級0)- 資訊源索引 功能:將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。 藍色良品(等級1)- 資訊塊 功能:將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深
Thumbnail
從自己精神世界中創造出來的靈感,才是屬於自己的真知識。
Thumbnail
從自己精神世界中創造出來的靈感,才是屬於自己的真知識。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News