RAG Retriever(檢索器)

更新 發佈閱讀 2 分鐘

RAG(Retrieval-Augmented Generation,檢索增強生成)中的Retriever(檢索器)是指專門負責從外部知識庫或大型資料庫中快速查找與用戶輸入問題或提示相關資訊的模組。它是RAG模型的核心組成部分之一,目的是為生成模型(如大型語言模型)提供額外且精確的上下文信息,以提升回答的準確性和相關性。

具體來說,Retriever的功能包括:

  • 根據用戶的查詢,透過向量檢索或關鍵字檢索技術,從龐大的文檔集合中找到最相關的文本片段或文件。
  • 通常會利用向量檢索引擎(如FAISS)將文本轉換成低維向量,再通過相似度計算找到最佳匹配。
  • 檢索出的相關內容會被提供給生成模型作為輔助信息,使模型能基於最新、具體的資料生成更有依據且精確的回答。
  • Retriever有效彌補了純生成模型只依賴訓練資料所帶來的知識有限性,讓模型即便面對最新或領域特定的問題,也能從動態更新的資料庫中獲取答案。

簡單比喻,Retriever就像是圖書館內的資訊檢索員,當你有問題時,先幫你找到最適合的書籍段落,再交給語言模型進行解讀和回答,讓整個系統回答更準確、更豐富。

常用的檢索方法包括基於向量相似度(如餘弦相似度)的稠密檢索(Dense Retrieval)。

總結:RAG中的Retriever是用來快速且精確從大量資料中搜尋相關信息的模組,其結果為生成模型提供上下文支持,提升生成回答的準確度和內容深度。

留言
avatar-img
留言分享你的想法!
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
30會員
495內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 AWS Certified AI Practitioner (AIF-C01)
2025/08/14
TIMIT 是一個經典且廣泛使用的語音資料庫,全名為「Texas Instruments/Massachusetts Institute of Technology Acoustic-Phonetic Continuous Speech Corpus」。它主要用於聲學語音學研究和自動語音識別系統的開
2025/08/14
TIMIT 是一個經典且廣泛使用的語音資料庫,全名為「Texas Instruments/Massachusetts Institute of Technology Acoustic-Phonetic Continuous Speech Corpus」。它主要用於聲學語音學研究和自動語音識別系統的開
2025/08/14
LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明: 資料規模與來源: LibriSpeech 是一個包含約1000小時、取樣率為16kHz
2025/08/14
LibriSpeech 是一個非常著名的語音資料集,主要用於自動語音識別(ASR,Automatic Speech Recognition)系統的訓練與評估。以下是關於 LibriSpeech 的繁體中文說明: 資料規模與來源: LibriSpeech 是一個包含約1000小時、取樣率為16kHz
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
2025/08/14
CIFAR-10是一個廣泛應用於機器學習與計算機視覺領域的影像數據集,具備以下主要特點: 數據規模:總共包含60,000張彩色圖片,圖像尺寸為32×32像素。 類別數量與平衡性:涵蓋10個不同類別,每個類別有6,000張圖片。 訓練與測試集:分為50,000張訓練圖片和10,000張測試圖片。
看更多
你可能也想看
Thumbnail
想開始學塔羅卻不知道要準備哪些工具?這篇整理塔羅新手必備好物清單,從塔羅牌、塔羅布到收納袋與香氛噴霧一次入手。趁蝦皮雙11優惠打造專屬占卜空間,還能加入蝦皮分潤計畫,用分享創造收入。
Thumbnail
想開始學塔羅卻不知道要準備哪些工具?這篇整理塔羅新手必備好物清單,從塔羅牌、塔羅布到收納袋與香氛噴霧一次入手。趁蝦皮雙11優惠打造專屬占卜空間,還能加入蝦皮分潤計畫,用分享創造收入。
Thumbnail
今天不只要分享蝦皮分潤計畫,也想分享最近到貨的魔法少年賈修扭蛋開箱,還有我的雙11購物清單,漫畫、文具、Switch2、後背包......雙11優惠真的超多,如果有什麼一直想買卻遲遲還沒下手的東西,最適合趁這個購物季趕緊下單!
Thumbnail
今天不只要分享蝦皮分潤計畫,也想分享最近到貨的魔法少年賈修扭蛋開箱,還有我的雙11購物清單,漫畫、文具、Switch2、後背包......雙11優惠真的超多,如果有什麼一直想買卻遲遲還沒下手的東西,最適合趁這個購物季趕緊下單!
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 總結一下目前有的素材: AI說書 - 從0開始 - 103:資料集載入 AI說書 - 從0開始 - 104:定義資料清洗的函數 AI說書 - 從0開始 - 105
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文討論了在AI時代下我們需要具備的職能,例如提問力、判斷力和專業能力。同時也提到了在使用AI時需要注意的事情,以及一些問答希望可以跟讀者有所互動與交流。另外作者也分享了自己使用AI工具的心得,並期待可以幫助初學者更快地瞭解如何應對AI的基礎邏輯。
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
本文提供了一個關於模擬法演算法的問題,介紹了操作指令的格式及其解析。透過程式碼模擬每條指令,找出回到根目錄所需的操作次數。本文詳細說明瞭模擬法的複雜度分析,能夠幫助讀者更好地理解這個問題。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這邊統整了過往喜特先生發布過的「資料驗證」系列文! 資料驗證是個「驗證資料是否符合某條件的機制」,我們通常會用它來避免別人輸入無效的值,減少錯誤的發生。你可以按照順序慢慢學習,把資料驗證這功能一次搞懂!
Thumbnail
這邊統整了過往喜特先生發布過的「資料驗證」系列文! 資料驗證是個「驗證資料是否符合某條件的機制」,我們通常會用它來避免別人輸入無效的值,減少錯誤的發生。你可以按照順序慢慢學習,把資料驗證這功能一次搞懂!
Thumbnail
這篇文章介紹瞭如何利用AI論文工具來提高研究生的論文閱讀效率以及寫作效率。透過Connected Papers、Scispace和Immersive Translate等AI工具,可以進行文獻回顧、段落摘要生成、Paraphrasing、APA格式生成以及論文對照翻譯
Thumbnail
這篇文章介紹瞭如何利用AI論文工具來提高研究生的論文閱讀效率以及寫作效率。透過Connected Papers、Scispace和Immersive Translate等AI工具,可以進行文獻回顧、段落摘要生成、Paraphrasing、APA格式生成以及論文對照翻譯
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這陣子使用AI模型,還有參考國內外一些喜歡玩語言模型的同好發文,一個很有趣的結論就是,有時候把大型語言模型(尤其ChatGPT)當作一個人來溝通,會得到比較好的結果,這的確是非常反直覺的,也就是說很多時候ChatGPT耍懶不肯工作的時候,你用加油打氣,或是情緒勒索的方法,確實是可以得到比較好的結果。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
這篇文章介紹瞭如何利用生成式AI(GenAI)來提高學習效率,包括文章重點整理、完善知識體系、客製化學習回饋、提供多元觀點等方法。同時提醒使用者應注意內容的信效度,保持學術誠信,適當運用GenAI能大幅提升工作效率。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News