檢索增強生成 RAG 簡介

更新於 2024/12/15閱讀時間約 4 分鐘

1. 什麼是檢索增強生成(RAG)?

檢索增強生成(Retrieval-Augmented Generation, RAG)是一種方法,可為您公司的私有資料提供客製化的 ChatGPT,使您更容易找到並使用所需的知識。它可以幫助您快速有效地與大量資訊互動。

RAG 系統分兩個步驟運作:

  1. 檢索:系統搜尋您的私有資料以找到有用的資訊片段。
  2. 生成:生成式人工智慧模型使用檢索到的資訊來創建清晰準確的答案回應您的問題。

補充:RAG 和 LLM 有什麼區別?大型語言模型(LLM)是生成文字的模型(例如 ChatGPT 使用的模型)。RAG 結合了兩個系統:從資料來源檢索資訊的檢索系統,以及生成回應的 LLM。LLM 是 RAG 系統的一部分。

2. 如何使用 RAG?

對於個人而言,RAG 充當一個人工智慧助理,有效地瀏覽私有資料以回答查詢或協助撰寫客製化內容,如電子郵件或摘要。在團隊環境中,RAG 成為管理共享知識的寶貴資產,結合各種資料來源的輸入,為團隊提供快速見解、一致的常見問題答案,並在新成員之間分享知識。

常見使用案例

  • 問答:RAG 在回答問題時表現出色,它可以從相關來源獲取必要的詳細資訊,並製作清晰且資訊豐富的回應,同時引用資訊來源。
  • 文件摘要:面對冗長的文件,RAG 可以識別主要觀點並將其濃縮成簡短易懂的摘要。
  • 內容生成:在撰寫文章或報告時,RAG 透過將各種來源的相關資訊整合成一個連貫的作品來提供協助。您甚至可以用它來撰寫電子郵件。

這些例子只是 RAG 可能應用的冰山一角。隨著人們不斷實驗和創新,更多應用正在出現,擴展了我們使用這項技術的方式。

3. RAG 有哪些優勢?

每個人都想要「自己資料的 ChatGPT」,但僅使用 LLM 建立可靠的系統可能具有挑戰性。RAG 透過增強 LLM 的額外資訊來提供幫助。這有助於它們提供優於純生成模型的情境敏感回應。對於知識系統,RAG 相較於「裸」LLM 系統有幾個優勢:

  • 準確性:RAG 減少了「幻覺」,即 LLM 可能給出看似合理但不正確的資訊。它透過將 LLM 的回應「接地」到從您團隊的資料來源檢索的準確資料,以生成可靠的回應。
  • 透明度:優秀的 RAG 系統可以提供參考資料,讓使用者檢查資訊來源,為 RAG 模型提供的答案增加一層信任和問責。
  • 客製化:RAG 系統可以使用您公司或領域的特定資料(例如,命名慣例),使其具有適應性並確保回應與您的獨特情境相關。

4. RAG 系統如何運作?

RAG 系統結合了兩個部分:檢索和生成。
檢索:當使用者輸入提示時,檢索部分負責尋找相關資訊。它使用使用者提示搜尋知識庫(例如文字語料庫、知識圖譜或資料庫)以找出最相關的資料。

raw-image



檢索有許多方法,通常使用「向量搜尋」(又稱「語義搜尋」)來將資訊與使用者提示匹配,但這裡有很多選擇。有時也會使用 LLM 來設置向量搜尋。

生成:一旦檢索到資訊,LLM 就會介入進行生成。它接收使用者提示並嘗試回應,同時使用檢索到的資訊(又稱「情境」)。基本上,LLM 得到的指示是:「使用這些文件回應使用者提示」。

avatar-img
0會員
31內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
自電腦誕生以來,許多應用程式一直需要比計算設備所能提供的更快的執行速度和更多的資源。早期的應用程式仰賴處理器速度、記憶體速度和記憶體容量的提升來增強應用程式的功能,如天氣預報的及時性、工程結構分析的準確性、電腦生成圖形的真實感等。近年來,深度學習等新應用對執行速度和資源的需求更是超過了最好的計算設備
本文介紹了一種名為Diffusion Model-Augmented Behavioral Cloning,(簡稱 DBC)的新型模仿學習框架。這個框架旨在結合建模條件機率和聯合機率的優勢,以改善模仿學習的效能。
本文簡介 3GPP 在 Release 18 與 Release 19中引入人工智慧/機器學習(AI/ML)功能到無線電介面、無線電接取網路和核心網路的標準化工作。
MLIR是什麼以及使用MLIR的優點
tcpdump -i <網路介面> 捕捉流經網路介面的通訊。
自電腦誕生以來,許多應用程式一直需要比計算設備所能提供的更快的執行速度和更多的資源。早期的應用程式仰賴處理器速度、記憶體速度和記憶體容量的提升來增強應用程式的功能,如天氣預報的及時性、工程結構分析的準確性、電腦生成圖形的真實感等。近年來,深度學習等新應用對執行速度和資源的需求更是超過了最好的計算設備
本文介紹了一種名為Diffusion Model-Augmented Behavioral Cloning,(簡稱 DBC)的新型模仿學習框架。這個框架旨在結合建模條件機率和聯合機率的優勢,以改善模仿學習的效能。
本文簡介 3GPP 在 Release 18 與 Release 19中引入人工智慧/機器學習(AI/ML)功能到無線電介面、無線電接取網路和核心網路的標準化工作。
MLIR是什麼以及使用MLIR的優點
tcpdump -i <網路介面> 捕捉流經網路介面的通訊。
你可能也想看
Google News 追蹤
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
在數位時代,關鍵字優化成為了網絡營銷中不可或缺的一環。傳統的SEO方法雖然仍然有效,但隨著人工智慧技術的進步,我們可以更精確地鎖定目標受眾,並提升搜尋引擎排名。其中,ChatGPT SEO作為新興工具,展示了驚人的潛力。 什麼是ChatGPT SEO? ChatGPT SEO 是結合了O
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
最近開始慢慢接觸ChatGPT,主要是對文本生成有興趣,且前一段時間去書店看到結合一些軟體做成影片、圖片各種內容等。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
筆記-股癌-24.06.08 *達哥是聯發科生成式AI服務平台,原先看法是用來coding、問問題。 -RIG(加強功能),給更多公司內部資料,減少幻覺問題,讓回答更佳精準。 -RIG就是open book,直接開答案來看。 -Embedded是讓模型重新學習一個新技能。 -RIG與Emb
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
ChatGPT 自2022年11月問世以降,開啟了生成式AI (Generative AI,也稱AIGC, AI Generated Content) 技術和應用的爆炸性發展。本篇文章提供了各種類型的AIGC工具整理,從個人助理到繪圖再到研究類一應俱全,幫助您提高生產力。
Thumbnail
本文探討了複利效應的重要性,並藉由巴菲特的投資理念,說明如何選擇穩定產生正報酬的資產及長期持有的核心理念。透過定期定額的投資方式,不僅能減少情緒影響,還能持續參與全球股市的發展。此外,文中介紹了使用國泰 Cube App 的便利性及低手續費,幫助投資者簡化投資流程,達成長期穩定增長的財務目標。
Thumbnail
SearchGPT 是由 OpenAI 開發的 AI 驅動搜尋引擎,結合了傳統搜尋引擎技術和最新的 AI 技術,能即時從互聯網獲取資訊。它與其他搜尋引擎相比,提供更相關的搜尋結果、更豐富的結果呈現、更快的速度和更好的生態合作基礎建設。
Thumbnail
在數位時代,關鍵字優化成為了網絡營銷中不可或缺的一環。傳統的SEO方法雖然仍然有效,但隨著人工智慧技術的進步,我們可以更精確地鎖定目標受眾,並提升搜尋引擎排名。其中,ChatGPT SEO作為新興工具,展示了驚人的潛力。 什麼是ChatGPT SEO? ChatGPT SEO 是結合了O
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
OpenAI 繼上週發表新的人工智慧模型「GPT-4o mini」,由 AI 驅動的搜尋引擎 SearchGPT 原型也隨之發布,該引擎能結合來自網路的即時資訊,讓使用者像與 ChatGPT 交談一樣搜尋。 透過 SearchGPT,用戶能以自然語言提出問題(與使用 ChatGPT 交談方式相同
Thumbnail
本文介紹了AI助手在數據收集和訓練過程中的工作原理和不斷進步的過程。關注的內容包括從公開的網絡資源、書籍、文章等渠道收集數據,數據的清洗和結構化處理,知識庫的增量更新以及訓練算法和模型的優化。如果大家對AI助手的發展還有任何其他感興趣的話題或建議,歡迎隨時告訴我們,讓我們共同探索,攜手進步。
最近開始慢慢接觸ChatGPT,主要是對文本生成有興趣,且前一段時間去書店看到結合一些軟體做成影片、圖片各種內容等。
Thumbnail
本文談及資料科學的領域與分工。首先是建造一個AI的研發流程,資料收集到 AI 模型訓練的過程,AI經歷這一切流程被創造出來並產生價值;再來本文也提及在這個領域中的各種腳色、資料工程師、數據庫工程師、資料科學家和資料分析師的各種介紹。並且強調跨領域合作的重要性。
Thumbnail
筆記-股癌-24.06.08 *達哥是聯發科生成式AI服務平台,原先看法是用來coding、問問題。 -RIG(加強功能),給更多公司內部資料,減少幻覺問題,讓回答更佳精準。 -RIG就是open book,直接開答案來看。 -Embedded是讓模型重新學習一個新技能。 -RIG與Emb
Thumbnail
為了充分發揮AI的潛力,我們必須深入瞭解其運作模式和思考邏輯,並學會與AI對話的技巧。《ChatGPT提問課,做個懂AI的高效工作者》這本書提供了豐富的實例,讓讀者更容易學會如何提出精準的問題,並享有提問課程的閱讀回饋。這對於想成為懂AI的高效工作者的人來說,是一本值得一看的書。
Thumbnail
ChatGPT 自2022年11月問世以降,開啟了生成式AI (Generative AI,也稱AIGC, AI Generated Content) 技術和應用的爆炸性發展。本篇文章提供了各種類型的AIGC工具整理,從個人助理到繪圖再到研究類一應俱全,幫助您提高生產力。