更新於 2024/12/07閱讀時間約 3 分鐘

Graph RAG 簡介

檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。


QFS方法的可擴展性不足

傳統QFS方法缺乏處理典型RAG系統所能索引的大量文本的能力。這使得有效回答大規模文本語料庫的問題變得困難。

LLMs的上下文長度限制

現代大型語言模型(LLMs)能夠使用有限長度的來儲存輸入文字,但在處理非常大的文字語料庫時可能超出上下文長度的限制。這可能導致長文中間部分的資訊丟失風險。


什麼是Graph RAG?


Graph RAG(圖檢索增強生成)是一種利用LLMs構建的實體知識圖進行QFS的方法。這種方法使用以下兩階段過程來回答整個語料庫的全域問題:從源文件生成實體知識圖。

預先為密切相關的實體群組生成群組摘要。當收到問題時,使用每個群組摘要生成部分回答,最後將這些部分回答整合為全域回答。


Graph RAG的優點

可擴展性:Graph RAG能夠高效處理大量文本數據。通過利用群組摘要,可以分層地組織必要資訊,實現高效的檢索和摘要。改善全面性和多樣性:與傳統RAG方法相比,Graph RAG在回答的全面性(對問題的整體覆蓋)和多樣性(提供不同觀點和洞見)方面都表現出色。降低標記成本:使用群組摘要可以大幅減少所需的標記數量。特別是根層級的群組摘要在保持高效率的同時,顯著降低了標記成本。


Graph RAG的步驟

  1. 源文件的文字提取和分塊:從源文件提取文字並分割成可處理的塊。塊大小的選擇需要平衡提取精確度和效率。
  2. 從文字塊提取元素實例:從每個塊中提取實體(節點)及其關係(邊)。使用LLM提取實體名稱、類型、描述和關係描述。
  3. 生成元素實例摘要:摘要提取的實體和關係,生成描述每個實體和關係的文字塊。這是通過多次LLM調用完成的。
  4. 檢測圖社群:使用提取的實體和關係構建圖。使用群組檢測算法(如Leiden)分析此圖,識別密切相關的實體群組。
  5. 生成群組摘要:為每個群組生成實體和關係的摘要。這創建了一個全面的報告,有助於理解整個數據集的結構和含義。
  6. 使用群組摘要進行問答:當收到問題時,隨機打亂群組摘要並分割成指定標記大小的塊。為每個塊生成部分回答,然後整合這些部分回答以生成最終的全域回答。


總結

Graph RAG是一種結合LLMs和圖技術的新方法,能夠高效地從整個語料庫進行問答。與傳統RAG方法相比,它大幅提高了問題回答的全面性和多樣性。此外,通過降低標記成本,實現了高效的資訊檢索和摘要。


Reference

  1. From Local to Global: A Graph RAG Approach to Query-Focused Summarization
分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.