Graph RAG 簡介

更新於 發佈於 閱讀時間約 3 分鐘

檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。


QFS方法的可擴展性不足

傳統QFS方法缺乏處理典型RAG系統所能索引的大量文本的能力。這使得有效回答大規模文本語料庫的問題變得困難。

LLMs的上下文長度限制

現代大型語言模型(LLMs)能夠使用有限長度的來儲存輸入文字,但在處理非常大的文字語料庫時可能超出上下文長度的限制。這可能導致長文中間部分的資訊丟失風險。


什麼是Graph RAG?


Graph RAG(圖檢索增強生成)是一種利用LLMs構建的實體知識圖進行QFS的方法。這種方法使用以下兩階段過程來回答整個語料庫的全域問題:從源文件生成實體知識圖。

預先為密切相關的實體群組生成群組摘要。當收到問題時,使用每個群組摘要生成部分回答,最後將這些部分回答整合為全域回答。


Graph RAG的優點

可擴展性:Graph RAG能夠高效處理大量文本數據。通過利用群組摘要,可以分層地組織必要資訊,實現高效的檢索和摘要。改善全面性和多樣性:與傳統RAG方法相比,Graph RAG在回答的全面性(對問題的整體覆蓋)和多樣性(提供不同觀點和洞見)方面都表現出色。降低標記成本:使用群組摘要可以大幅減少所需的標記數量。特別是根層級的群組摘要在保持高效率的同時,顯著降低了標記成本。


Graph RAG的步驟

  1. 源文件的文字提取和分塊:從源文件提取文字並分割成可處理的塊。塊大小的選擇需要平衡提取精確度和效率。
  2. 從文字塊提取元素實例:從每個塊中提取實體(節點)及其關係(邊)。使用LLM提取實體名稱、類型、描述和關係描述。
  3. 生成元素實例摘要:摘要提取的實體和關係,生成描述每個實體和關係的文字塊。這是通過多次LLM調用完成的。
  4. 檢測圖社群:使用提取的實體和關係構建圖。使用群組檢測算法(如Leiden)分析此圖,識別密切相關的實體群組。
  5. 生成群組摘要:為每個群組生成實體和關係的摘要。這創建了一個全面的報告,有助於理解整個數據集的結構和含義。
  6. 使用群組摘要進行問答:當收到問題時,隨機打亂群組摘要並分割成指定標記大小的塊。為每個塊生成部分回答,然後整合這些部分回答以生成最終的全域回答。


總結

Graph RAG是一種結合LLMs和圖技術的新方法,能夠高效地從整個語料庫進行問答。與傳統RAG方法相比,它大幅提高了問題回答的全面性和多樣性。此外,通過降低標記成本,實現了高效的資訊檢索和摘要。


Reference

  1. From Local to Global: A Graph RAG Approach to Query-Focused Summarization
留言
avatar-img
留言分享你的想法!
avatar-img
Kiki的沙龍
1會員
45內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
Kiki的沙龍的其他內容
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/27
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/20
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
2025/04/06
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
重點摘要: 6 月繼續維持基準利率不變,強調維持高利率主因為關稅 點陣圖表現略為鷹派,收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變,強調需要維持高利率是因為關稅: 聯準會 (Fed) 召開 6 月利率會議
Thumbnail
先選擇有興趣的主題慢慢聚焦(研究動機) 回答論文題目關鍵詞語擇定的理由(研究動機、文獻探討) 參考、比較類似主題論文研究方法(文獻探討、研究方法) 研究題目背景資料(研究動機、文獻探討) 相關概念形成歷程(研究動機、文獻探討) 找到類似的碩博士論文參考篇章架構 擬定小標題(目錄) 避開
Thumbnail
先選擇有興趣的主題慢慢聚焦(研究動機) 回答論文題目關鍵詞語擇定的理由(研究動機、文獻探討) 參考、比較類似主題論文研究方法(文獻探討、研究方法) 研究題目背景資料(研究動機、文獻探討) 相關概念形成歷程(研究動機、文獻探討) 找到類似的碩博士論文參考篇章架構 擬定小標題(目錄) 避開
Thumbnail
其實除了研究所需,觀察也是靈感的來源、也可以是日常生活的樂趣。
Thumbnail
其實除了研究所需,觀察也是靈感的來源、也可以是日常生活的樂趣。
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
透過簡單的舉例,分享從原始資料到洞察發現的完整過程,包括資料清洗、特徵工程、探索性資料分析,以及如何根據分析結果提出具體建議。
Thumbnail
本文介紹不同類型的理論,讓研究者理解這些理論在研究的應用及其意義。說明了分析型理論、解釋型理論、預測型理論、解釋與預測型理論、設計與行動型理論,以及使用理論時的考量和如何使用理論進行研究的五步驟。
Thumbnail
本文介紹不同類型的理論,讓研究者理解這些理論在研究的應用及其意義。說明了分析型理論、解釋型理論、預測型理論、解釋與預測型理論、設計與行動型理論,以及使用理論時的考量和如何使用理論進行研究的五步驟。
Thumbnail
這篇文章討論了現今網路資訊中使用引人注目的標題,吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心,因而點閱。然而,這些標題不一定都是百分之百的真實,讀者需要保持冷靜的思緒,以避免誤導。請給小編一個喜歡,或者打賞稿費贊助,讓我們更有動力創作更多的內容。
Thumbnail
這篇文章討論了現今網路資訊中使用引人注目的標題,吸引讀者的心理和方法。標題經常使用誇大的效果來吸引讀者產生好奇心,因而點閱。然而,這些標題不一定都是百分之百的真實,讀者需要保持冷靜的思緒,以避免誤導。請給小編一個喜歡,或者打賞稿費贊助,讓我們更有動力創作更多的內容。
Thumbnail
紅色良品(等級0)- 資訊源索引 功能:將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。 藍色良品(等級1)- 資訊塊 功能:將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深
Thumbnail
紅色良品(等級0)- 資訊源索引 功能:將書籍和課程轉化為Obsidian中可索引的筆記。這種做法可以幫助你更快地從大量文本中找到需要的資訊。 藍色良品(等級1)- 資訊塊 功能:將書籍或課程中的具體內容段落轉化為Obsidian中可索引的筆記。這樣做可以讓你對特定知識點有更深
Thumbnail
從自己精神世界中創造出來的靈感,才是屬於自己的真知識。
Thumbnail
從自己精神世界中創造出來的靈感,才是屬於自己的真知識。
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
Thumbnail
我們常把研究分成量化與質性兩種不同的方法(當然不止這兩種方法),其中量化分析主要在討論變數與變數的關係,而質性分析則在變數間在的互動過程與事件。因此通常在進行質性研究時,我們需要收集大量田野調查或訪談資料。做過訪談的人都知道,訪談後需要反覆的聆聽訪談錄音並將其轉化為訪談逐字稿,這是一個大工程,還好現
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News