Graph RAG 簡介

Graph RAG 簡介

更新於 2024/12/07發佈於 2024/12/07閱讀時間約 3 分鐘

檢索增強生成（RAG）在檢索特定資訊時有效，但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要（QFS）而非明確的資訊檢索。

QFS方法的可擴展性不足

傳統QFS方法缺乏處理典型RAG系統所能索引的大量文本的能力。這使得有效回答大規模文本語料庫的問題變得困難。

LLMs的上下文長度限制

現代大型語言模型（LLMs）能夠使用有限長度的來儲存輸入文字，但在處理非常大的文字語料庫時可能超出上下文長度的限制。這可能導致長文中間部分的資訊丟失風險。

什麼是Graph RAG？

Graph RAG（圖檢索增強生成）是一種利用LLMs構建的實體知識圖進行QFS的方法。這種方法使用以下兩階段過程來回答整個語料庫的全域問題：從源文件生成實體知識圖。

預先為密切相關的實體群組生成群組摘要。當收到問題時，使用每個群組摘要生成部分回答，最後將這些部分回答整合為全域回答。

Graph RAG的優點

可擴展性：Graph RAG能夠高效處理大量文本數據。通過利用群組摘要，可以分層地組織必要資訊，實現高效的檢索和摘要。改善全面性和多樣性：與傳統RAG方法相比，Graph RAG在回答的全面性（對問題的整體覆蓋）和多樣性（提供不同觀點和洞見）方面都表現出色。降低標記成本：使用群組摘要可以大幅減少所需的標記數量。特別是根層級的群組摘要在保持高效率的同時，顯著降低了標記成本。

Graph RAG的步驟

源文件的文字提取和分塊：從源文件提取文字並分割成可處理的塊。塊大小的選擇需要平衡提取精確度和效率。
從文字塊提取元素實例：從每個塊中提取實體（節點）及其關係（邊）。使用LLM提取實體名稱、類型、描述和關係描述。
生成元素實例摘要：摘要提取的實體和關係，生成描述每個實體和關係的文字塊。這是通過多次LLM調用完成的。
檢測圖社群：使用提取的實體和關係構建圖。使用群組檢測算法（如Leiden）分析此圖，識別密切相關的實體群組。
生成群組摘要：為每個群組生成實體和關係的摘要。這創建了一個全面的報告，有助於理解整個數據集的結構和含義。
使用群組摘要進行問答：當收到問題時，隨機打亂群組摘要並分割成指定標記大小的塊。為每個塊生成部分回答，然後整合這些部分回答以生成最終的全域回答。

總結

Graph RAG是一種結合LLMs和圖技術的新方法，能夠高效地從整個語料庫進行問答。與傳統RAG方法相比，它大幅提高了問題回答的全面性和多樣性。此外，通過降低標記成本，實現了高效的資訊檢索和摘要。

Reference

From Local to Global: A Graph RAG Approach to Query-Focused Summarization

#AI人工智慧

#AI深度學習

#大語言模型

Kiki的沙龍

1會員

40內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

留言

留言分享你的想法！

Kiki的沙龍的其他內容

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

#OpenAI #開發 #模型

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

#開發 #OpenAI #模型

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

#OpenAI #應用程式 #模型

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

#OpenAI #開發 #模型

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

#開發 #OpenAI #模型

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

#OpenAI #應用程式 #模型