🤖 什麼是 LLM?
LLM = Large Language Model(大型語言模型)
它是一種使用深度學習訓練出來的 AI 模型,能夠理解與產生人類語言。
🔎 一句話解釋
LLM 是一種「用大量文字訓練出來的預測下一個字的超大型神經網路」。
🧠 它怎麼運作?
LLM 的核心是:
1️⃣ Transformer 架構
由 Ashish Vaswani 等人在 2017 年提出的論文
Attention Is All You Need 中發表。
核心技術是:
- Self-Attention(自注意力機制)
- 能同時理解整段文字的上下文關係
2️⃣ 訓練方式
LLM 通常分兩階段:
🟢 預訓練(Pretraining)
用數十億甚至數兆字詞的資料訓練模型去:
- 預測下一個字
- 補全句子
- 理解語意關聯
🔵 微調(Fine-tuning)
再用:
- 人類標註資料
- 對話資料
- RLHF(人類回饋強化學習)
讓模型更符合人類期待。
📈 為什麼叫「Large」?
因為參數量非常大:

參數越多:
- 模型能記住的模式越多
- 語言理解能力越強
- 但訓練成本也越高
🧩 LLM 能做什麼?
✔ 對話聊天
✔ 寫文章
✔ 翻譯語言
✔ 程式碼生成
✔ 摘要文件
✔ 推理問題
✔ 協助學習
⚙ LLM 的本質
雖然它看起來「懂你在說什麼」,但本質是:
透過統計學與機率模型,預測最合理的文字序列。
它不是:
- 真正理解世界
- 有自我意識
- 有情緒
🧠 更深一點理解
如果你喜歡哲學角度,可以把 LLM 想成:
- 一種語言壓縮機
- 或一種高維機率場
- 或一個在數兆句子中學到語言結構的「統計宇宙」





















