「RAG + 微調」混合架構 - AI 公司最常用的 dataset 技術

JH Young

發佈於滴咕雞

2026/03/07 更新2026/03/07 發佈閱讀 7 分鐘

現在 AI 公司最常用的 dataset 技術：

「RAG + 微調」混合架構

它能讓小模型能力 提升 5～20 倍。

目前 AI 系統非常主流的一種架構：RAG + 微調（Fine-tuning）混合架構。很多公司都使用這種方法來打造專業 AI 助手，因為它能讓模型既有知識又能查最新資料。

一、什麼是 RAG

RAG（Retrieval-Augmented Generation） 檢索增強生成的概念是：

</>Plain text
使用者問題
     │
     ▼
搜尋知識庫（向量資料庫）
     │
     ▼
把找到的資料加入 Prompt
     │
     ▼
LLM 生成回答

簡單說：

模型不記住所有知識，而是需要時去查資料。

二、RAG 的基本架構

</>Plain text
文件 → 切分 → 向量化 → 向量資料庫
                           │
                           ▼
使用者問題 → 向量搜尋 → 找到相關內容
                           │
                           ▼
LLM + context → 回答

常見元件：

常用向量資料庫：

FAISS
Milvus
Chroma

三、Python RAG 簡化範例

假設你有一堆文件：

</>Plain text
documents/
    tang_history.txt
    wuxia_skills.txt

先做 embedding：

</>Python
from sentence_transformers import SentenceTransformer
import faiss

model = SentenceTransformer("all-MiniLM-L6-v2")

docs = [
"安祿山是唐朝節度使",
"華山派以劍法聞名",
"寒元真訣是一種內功"
]

embeddings = model.encode(docs)

建立向量索引：

</>Python
index = faiss.IndexFlatL2(384)
index.add(embeddings)

查詢：

</>Python
query = model.encode(["安祿山是誰"])

D, I = index.search(query, k=2)

print([docs[i] for i in I[0]])

找到相關知識：

</>Plain text
安祿山是唐朝節度使

然後把它放進 Prompt：

</>Plain text
Context:
安祿山是唐朝節度使

Question:
安祿山是誰

LLM 就能回答。

四、RAG 的優點

所以企業很愛用。

五、RAG 的缺點

因此很多公司會：

RAG + 微調

六、RAG + Fine-tuning

混合架構：

</>Plain text
            ┌─────────────┐
            │   LLM 模型   │
            │  (微調過)    │
            └──────┬──────┘
                   │
         加入 RAG context
                   │
                   ▼
               最終回答

微調負責：

回答風格
專業推理
tool calling

RAG 負責：

提供知識
更新資料

七、為何混合架構效果最好

原因很簡單：

LLM 記憶是有限的。

例如：

7B 模型

</>Plain text
參數 ≈ 7B

但公司資料：

</>Plain text
文件 ≈ 100GB

模型不可能全部記住。

所以：

</>Plain text
模型負責推理
RAG 負責記憶

八、企業實際應用

很多 AI 系統是這樣：

</>Plain text
使用者
   │
   ▼
API
   │
   ▼
RAG 搜尋
   │
   ▼
LLM（微調）
   │
   ▼
回答

例如 AI 客服：

產品文件
FAQ
公司規則

都存在 RAG。

九、4090 可以跑完整 RAG

一台 RTX4090 就可以：

甚至可以在家做 私人 AI 知識庫。

十、很少人知道的關鍵技巧

真正強的 RAG 不是「直接塞文件」。

而是：

Chunk + Metadata

例如：

</>Plain text
文件
   │
   ▼
切成 500 tokens
   │
   ▼
加 metadata

例子：

</>JSON
{
 "text":"安祿山是唐朝節度使",
 "source":"tang_history",
 "year":755
}

這樣搜尋更準確。

十一、RAG 進階技術

目前最強的 RAG 系統會加：

1️⃣ Re-ranking

2️⃣ Multi-query search

3️⃣ Graph RAG

Graph RAG 很熱門。

十二、Graph RAG

不是只存文字，而是存 知識關係。

例如：

</>Plain text
安祿山 → 發動 → 安史之亂
安祿山 → 對抗 → 唐玄宗

這種圖資料庫：

Neo4j（Graph Database Management System）

LLM 查詢後再回答。

✅ 總結

現在最主流 AI 架構：

</>Plain text
RAG + Fine-tuning + Tool calling

能力：

查資料
推理
用工具

這就是現代 AI agent 的基礎。

留言

sirius數字沙龍

11會員

250內容數

吃自助火鍋啦！不要客氣，想吃啥，請自行取用！

sirius數字沙龍的其他內容

2026/03/06

如何用 AI 自動生成 10 萬筆訓練資料（Self-Instruct Dataset）

一步一步示範 Self-Instruct（自動生成訓練資料）的方法。這是很多模型（如 OpenAI、Stanford University 研究團隊）提出並實際使用的技巧，可以用一個強模型自動生成大量資料，然後用來微調另一個模型。

2026/03/06

如何用 AI 自動生成 10 萬筆訓練資料（Self-Instruct Dataset）

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

這是很多人自己做「私人 AI 助手 / 領域模型」的典型做法。整體分成：模型選擇 → 資料 → 訓練 → 推論部署。一、硬體條件（RTX 4090） RTX 4090 VRAM：24GB FP16 算力：約 82 TFLOPS 適合：LoRA / QLoRA 微調能訓練模型大小：

2026/03/06

用一張 RTX 4090 就能跑的完整 LLM 微調專案架構

2026/03/06

示範 4090 訓練 LLM Tool-Calling 的 dataset 格式

示範一個 RTX 4090 用於訓練 LLM「工具調用（Tool Calling）」的資料格式。這種格式比原本的 Python 範例更接近 OpenAI / Llama / DeepSeek / function calling dataset 常見結構。

2026/03/06

示範 4090 訓練 LLM Tool-Calling 的 dataset 格式

看更多

你可能也想看

涵柳的沙龍

《轉轉生 Re:INCARNATION》：從身體與服裝看見奈及利亞的重生

《轉轉生》為奈及利亞編舞家庫德斯．奧尼奎庫與 Q 舞團創作的當代舞蹈作品，融合舞蹈、音樂、時尚和視覺藝術，透過身體、服裝與群舞結構，回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發，分析《轉轉生》如何以當代目光，形塑去殖民視角的奈及利亞歷史。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/01/14