Graph RAG 簡介

更新於 2024/12/07閱讀時間約 3 分鐘

檢索增強生成(RAG)在檢索特定資訊時有效,但不適合回答整個語料庫的全域問題。這是因為全域問題需要關注查詢焦點摘要(QFS)而非明確的資訊檢索。


QFS方法的可擴展性不足

傳統QFS方法缺乏處理典型RAG系統所能索引的大量文本的能力。這使得有效回答大規模文本語料庫的問題變得困難。

LLMs的上下文長度限制

現代大型語言模型(LLMs)能夠使用有限長度的來儲存輸入文字,但在處理非常大的文字語料庫時可能超出上下文長度的限制。這可能導致長文中間部分的資訊丟失風險。


什麼是Graph RAG?


Graph RAG(圖檢索增強生成)是一種利用LLMs構建的實體知識圖進行QFS的方法。這種方法使用以下兩階段過程來回答整個語料庫的全域問題:從源文件生成實體知識圖。

預先為密切相關的實體群組生成群組摘要。當收到問題時,使用每個群組摘要生成部分回答,最後將這些部分回答整合為全域回答。


Graph RAG的優點

可擴展性:Graph RAG能夠高效處理大量文本數據。通過利用群組摘要,可以分層地組織必要資訊,實現高效的檢索和摘要。改善全面性和多樣性:與傳統RAG方法相比,Graph RAG在回答的全面性(對問題的整體覆蓋)和多樣性(提供不同觀點和洞見)方面都表現出色。降低標記成本:使用群組摘要可以大幅減少所需的標記數量。特別是根層級的群組摘要在保持高效率的同時,顯著降低了標記成本。


Graph RAG的步驟

  1. 源文件的文字提取和分塊:從源文件提取文字並分割成可處理的塊。塊大小的選擇需要平衡提取精確度和效率。
  2. 從文字塊提取元素實例:從每個塊中提取實體(節點)及其關係(邊)。使用LLM提取實體名稱、類型、描述和關係描述。
  3. 生成元素實例摘要:摘要提取的實體和關係,生成描述每個實體和關係的文字塊。這是通過多次LLM調用完成的。
  4. 檢測圖社群:使用提取的實體和關係構建圖。使用群組檢測算法(如Leiden)分析此圖,識別密切相關的實體群組。
  5. 生成群組摘要:為每個群組生成實體和關係的摘要。這創建了一個全面的報告,有助於理解整個數據集的結構和含義。
  6. 使用群組摘要進行問答:當收到問題時,隨機打亂群組摘要並分割成指定標記大小的塊。為每個塊生成部分回答,然後整合這些部分回答以生成最終的全域回答。


總結

Graph RAG是一種結合LLMs和圖技術的新方法,能夠高效地從整個語料庫進行問答。與傳統RAG方法相比,它大幅提高了問題回答的全面性和多樣性。此外,通過降低標記成本,實現了高效的資訊檢索和摘要。


Reference

  1. From Local to Global: A Graph RAG Approach to Query-Focused Summarization
avatar-img
0會員
31內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種提高生成式AI回答精確度的方法,本文簡要總結了RAG的相關內容。
人工智慧/機器學習(AI/ML)技術及相關應用已經成功地進入各種不同的產業。這些技術現在正應用於電信行動網路,AI/ML技術在改善系統性能、提高效率、增強終端用戶體驗方面創造更多商業價值,同時為5G和下世代行動網路創造新的商業模式。
ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。
一個好的機器學習模型通常需要大量樣本進行訓練。相比之下,人類學習新概念和技能要快得多,也更有效率。例如:小孩子只需見過幾次貓和鳥就能很快分辨它們。會騎自行車的人很可能在很少甚至沒有示範的情況下就能發現騎摩托車的方法。這樣的生活經驗讓大家想到是否有可能設計一個具有類似特性的機器學習模型: 元學習
大型transformer模型已成為最近的主流,在處理各種不同的任務上都獲得了很好的結果。大型transformer功能強大,但在計算效能和記憶體方面都有極高的要求,這也造成使用transformer大規模解決真實世界任務時的一個大瓶頸。本文嘗試介紹一些最佳化方法來突破這些瓶頸。
前言 許多年前已經有許多研究使用影像處理方法來生成文字,如圖像描述和視覺問答。傳統上,這類系統依賴於物體檢測網絡作為視覺編碼器來捕捉視覺特徵,然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法,即擴展預訓練的通用語言模型,使其能夠處理視覺信號。本文大致將這些視覺語
RAG(Retrieval-Augmented Generation,檢索增強生成)是一種提高生成式AI回答精確度的方法,本文簡要總結了RAG的相關內容。
人工智慧/機器學習(AI/ML)技術及相關應用已經成功地進入各種不同的產業。這些技術現在正應用於電信行動網路,AI/ML技術在改善系統性能、提高效率、增強終端用戶體驗方面創造更多商業價值,同時為5G和下世代行動網路創造新的商業模式。
ChatGPT的推出大大加速了大型語言模型在真實世界中的應用。然而,對抗性攻擊或越獄提示可能會觸發模型輸出一些非預期的內容,這些內容很有可能會對用戶造成傷害。
一個好的機器學習模型通常需要大量樣本進行訓練。相比之下,人類學習新概念和技能要快得多,也更有效率。例如:小孩子只需見過幾次貓和鳥就能很快分辨它們。會騎自行車的人很可能在很少甚至沒有示範的情況下就能發現騎摩托車的方法。這樣的生活經驗讓大家想到是否有可能設計一個具有類似特性的機器學習模型: 元學習
大型transformer模型已成為最近的主流,在處理各種不同的任務上都獲得了很好的結果。大型transformer功能強大,但在計算效能和記憶體方面都有極高的要求,這也造成使用transformer大規模解決真實世界任務時的一個大瓶頸。本文嘗試介紹一些最佳化方法來突破這些瓶頸。
前言 許多年前已經有許多研究使用影像處理方法來生成文字,如圖像描述和視覺問答。傳統上,這類系統依賴於物體檢測網絡作為視覺編碼器來捕捉視覺特徵,然後通過文字解碼器生成文字。鑑於大量現有文獻。這篇文章會專注於解決視覺任務的一種方法,即擴展預訓練的通用語言模型,使其能夠處理視覺信號。本文大致將這些視覺語
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
找出問題、避免問題、把問題當問題看。
Thumbnail
2024.7.19 有時候,我們迫切找尋的不是解釋。
了解熱門的題目熱門的技術,具體是解決什麼以前無法解決的問題。熱門的題目之所以熱門,常常是因為那個工作開啟了領域很大的想像空間。而之所以有很大的想像空間,基本是因為某種「技術」得到了突破。可能以前沒辦法計算的東西,現在可以計算了,可能以前逼近的效果不好,現在變得更好誤差都更小了
Thumbnail
關係的摸索,自我刨根的旅程,也是一種思念的方法。
證據不一定是王道,數據不一定就是真理,避免偏見、刻板印象、歧視,不要太快做出決定或判斷——尋找共同點,開放式問題的提問——幫助他人重新思考。
Thumbnail
關係的摸索,自我刨根的旅程,也是思念的一種方法。
改版之後的方格子,找不到圖庫,找不到路徑 只好發個測試廢文
Thumbnail
關係的摸索,自我刨根的旅程,也是思念的一種方法。
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
找出問題、避免問題、把問題當問題看。
Thumbnail
2024.7.19 有時候,我們迫切找尋的不是解釋。
了解熱門的題目熱門的技術,具體是解決什麼以前無法解決的問題。熱門的題目之所以熱門,常常是因為那個工作開啟了領域很大的想像空間。而之所以有很大的想像空間,基本是因為某種「技術」得到了突破。可能以前沒辦法計算的東西,現在可以計算了,可能以前逼近的效果不好,現在變得更好誤差都更小了
Thumbnail
關係的摸索,自我刨根的旅程,也是一種思念的方法。
證據不一定是王道,數據不一定就是真理,避免偏見、刻板印象、歧視,不要太快做出決定或判斷——尋找共同點,開放式問題的提問——幫助他人重新思考。
Thumbnail
關係的摸索,自我刨根的旅程,也是思念的一種方法。
改版之後的方格子,找不到圖庫,找不到路徑 只好發個測試廢文
Thumbnail
關係的摸索,自我刨根的旅程,也是思念的一種方法。