檢索增強生成(Retrieval-Augmented Generation, RAG)技術是當前大型語言模型(LLM)應用的核心之一,特別在企業場景中,其能夠結合外部知識庫提升生成內容的準確性和上下文相關性。然而,企業級 RAG 系統需應對非結構化資料處理、檢索精準度、生成效率等多重挑戰。Ilya Rice 在「企業級 RAG 挑戰賽」中脫穎而出,憑藉其系統化的架構設計和細緻的技術決策,成功打造一個高效、精準的 RAG 系統。TN科技筆記將節錄重點介紹 Ilya 的獲勝策略,並分享其在實戰中積累的寶貴經驗,幫助讀者理解如何在企業級應用中實踐 RAG。

精彩原文:Ilya Rice: How I Won the Enterprise RAG Challenge
企業級 RAG 挑戰賽簡介
企業級 RAG 挑戰賽模擬了真實的企業應用場景,參賽者需在時間和技術限制下完成以下任務:- 資料處理階段(Ingestion Stage):在 2.5 小時內處理 100 份隨機企業年度財報(PDF 格式,總頁數可達 1000 頁)。此階段包括文件解析、清理,以及建立可供查詢的知識庫。
- 問答階段(Answering Stage):針對 100 個隨機問題提供快速且精確的回答,問題涵蓋布林值、公司實體、職位、產品名稱及數值指標等類型,並要求提供答案來源的頁碼,以驗證資訊並避免模型幻覺(Hallucination)。
Ilya Rice 的系統不僅高效完成任務,還在精準度和穩定性上表現卓越。以下將詳細解析其獲勝系統的四大核心階段:解析、注入、檢索與生成。
獲勝系統的核心架構
Ilya 的 RAG 系統並非依賴單一技術突破,而是整合多項技術,形成一個高效的流程。其架構的核心特色包括:
- 雙智慧路由器(Routers):在資料注入和問答階段分別使用智慧路由器,精準定位資料和問題處理路徑。
- LLM 重新排序(Reranking):提升檢索結果的相關性,確保生成答案的精準度。
- 模組化設計:將流程拆分為獨立模組,方便迭代與改進。
以下逐一剖析其四大核心階段的技術細節與實戰經驗。
1. 解析(Parsing):高效處理非結構化資料
PDF 文件的解析是 RAG 系統的首要挑戰,涉及表格保留、多欄文本識別、圖表與頁首/頁尾雜訊處理等問題。Ilya 選擇了 IBM 開發的 Docling 作為解析工具,並對其原始碼進行客製化改進,使其能導出包含完整元數據(metadata)的 JSON 檔案。這些 JSON 檔案隨後被轉換為格式化的 Markdown 和 HTML 文件,特別在處理複雜表格結構時表現出色。
實戰經驗:
- 客製化工具的重要性:Ilya 通過改進 Docling,解決了字體編碼錯誤和表格結構解析的問題,顯示出對工具深入理解的價值。
- 高效運算資源利用:利用配備 GPU 的虛擬主機,Ilya 將 100 份財報(共 1047 頁)的解析時間壓縮至約 40 分鐘,展現了硬體與軟體協同改進的效率。
2. 注入(Ingestion):構建高效知識庫
在注入階段,Ilya 將解析後的文本轉化為可供檢索的知識庫,關鍵技術包括:
- 表格序列化(Table Serialization):針對財報中的大型表格,Ilya 利用 GPT-4o-mini 將表格行轉換為包含完整上下文的獨立字串。例如,將表格轉為語義完整的文本,提升向量搜尋的相關性。雖然最終方案未啟用此功能(因 Docling 已足夠強大)。
- 分塊與向量化:文本被切分為 300 個 token 的區塊,設置 50 個 token 重疊以保留語義連續性。每份財報獨立建立一個向量資料庫,總計 100 個資料庫,顯著縮減後續檢索的範圍。
實戰經驗:
- 模組化資料庫設計:獨立資料庫的設計大幅降低了檢索複雜度,特別適用於多文件場景。
- 靈活的表格處理策略:雖然未最終採用表格序列化,但這一方法為未來處理更複雜的非結構化資料提供了思考方向。
3. 檢索(Retrieval):精準召回資訊
檢索階段是 RAG 系統的核心,直接影響答案品質。Ilya 的策略包括:
- LLM 重新排序(Reranking):
- 初步向量搜尋檢索 Top-30 個相關區塊。
- 使用 GPT-4o-mini 評估每個區塊與問題的相關性,給予 0 到 1 的分數。
- 最終的相關性分數由向量搜尋分數與 LLM 重排分數的加權平均值決定 (0.3 * vector_score + 0.7 * llm_score),確保高精準度與低運算成本。
- 父頁面檢索(Parent Page Retrieval):以區塊定位精準資訊點後,回溯至完整頁面作為上下文,確保資訊完整性。
實戰經驗:
- 重新排序的價值:LLM 重新排序顯著提升了檢索品質,尤其在處理語義複雜的問題時。
- 上下文完整性:父頁面檢索策略避免了因區塊分割而丟失上下文的問題,特別適用於財報等長文本場景。
4. 生成(Generation):精準合成答案
生成階段將檢索到的上下文轉化為符合格式的答案,Ilya 的關鍵技術包括:
- 智慧路由(Intelligent Routing):
- 資料庫路由:根據問題中的公司名稱(透過正規表示法提取),直接定位對應向量資料庫,縮減搜尋空間 100 倍。
- 提示路由:根據問題類型(例如布林值或數值)動態選擇專屬提示模板,提升生成效率。
- 多查詢路由:對於比較型問題,拆解為子問題分別處理後整合答案。
- 先進提示工程:
- 使用思維鏈(Chain-of-Thought, CoT)和結構化輸出(Structured Output),要求 LLM 以 JSON 格式輸出,包含推理過程、相關頁碼和最終答案。
- 採用單樣本提示(One-shot Prompts),提供高品質範例引導模型輸出。
- 通過迭代優化指令,明確定義「詮釋自由度閾值」,如將「總經理」視為「CEO」的有效答案。
實戰經驗:
- 動態路由提升效率:智慧路由將複雜問題分解為可管理的子任務,大幅提高效率。
- 提示工程的迭代優化:通過錯誤案例分析不斷改進提示,確保模型行為一致且精準。
Ilya Rice 的獲勝經驗展現 RAG 技術在企業級應用中的巨大潛力。通過整合高效解析、模組化知識庫、精準檢索與智慧生成,Ilya 成功處理 100 份財報並精準回答問題,希望各位讀者也能有所收穫!
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~~~也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!>>>>> 請我喝一杯咖啡
在此也感謝每個月持續請我喝杯咖啡的讀者們,讓我更加有動力為各位帶來科技新知!