不可不知 AI 關鍵字 002|一文看懂 大語言模型(LLM)

更新 發佈閱讀 11 分鐘
《不可不知 AI 關鍵字》是由 AI服務商 EgentHub 建立的AI學習系列,協助企業員工在學習 AI 時遇到艱深的詞彙時,在面對大量繁雜的專業術語時,能快速查找、理解概念,像一本隨手可用的 AI 字典。

上一篇我們提到生成式 AI 可以寫文章、總結文件、幫忙修改簡報等,許多人可能會直覺地把生成式 AI大語言模型(Large Language Model,LLM)視為相同的技術,但嚴格來說,生成式 AI 是能創建內容的 AI 技術總稱,LLM 則是專門生成與理解文字的生成式 AI 模型。

本文中,我們會先為各位解惑生成式 AI 與 LLM 的具體差異,接著再深入介紹大語言模型(LLM)是如何理解並且生成文字,從最基礎的自然語言處理(NLP)概念談起,到了解語言模型是如何被訓練與思考的,讓大家能透過這篇文章深入淺出地理解這些常見但艱深的詞彙。

學習建議: 本篇文涉及較多專業詞彙與機制,如果對於整個機制與運算邏輯的理解較吃力,建議先對LLMNLPtokenEmbeddingFine-tuning幾個常見詞有個基本認識,未來對AI較多接觸後,再回來研讀會更容易吸收!

raw-image

生成式 AI (Gen AI)與大語言模型(LLM)的關係

生成式 AI(Generative AI)是一個能「創造內容」的廣義技術範疇,涵蓋文本、圖像、聲音、影片等多種形式的生成模型;而 LLM(Large Language Model,大型語言模型)則是其中專門負責語言理解與文字生成的一支。

換句話說,生成式 AI 包含了多種類型的生成,每一種生成都需要對應的模型,結合上一篇文提到的多種生成形式做個整理:

  • 文字生成:交由大語言模型 (LLM) 負責,著名代表如GPTClaudeGemini
  • 圖像生成:交由影像擴散模型 或 影像生成模型 ,著名代表如 MidjourneyDALL・E
  • 影片生成:交由影片擴散模型 或 影片生成模型,著名代表如 SoraVeo
  • 聲音生成:交由文字轉語音模型 與 聲音生成模型,著名代表如 ElevenLabsSuno

因此,生成式 AI 是大範圍概念,LLM 是其中最重要、最普及的子類型之一,之所以兩者常被混用,是因為目前企業導入與大眾應用(如 ChatGPT、Claude、Gemini)幾乎都以文字生成為主,因此讓 LLM 成為生成式 AI 最廣為人知的代表,但他們本質上仍屬於「包含與被包含」的階層關係。


LLM 出現之前:什麼是自然語言處理(NLP)?

要討論什麼是LLM?我們必須從他的基本,也就是 自然語言處理(Natural Language Processing, NLP) 開始說起。簡單來說,NLP是人工智慧的一個重要分支,它結合了語言學、電腦科學與統計學方法,目標是是讓電腦能夠理解、解釋和處理人類使用的自然語言(如中文、英文),以達到人機順暢溝通的一項技術。聽起來很遙遠,但其實NLP的應用在生活中隨處可見,如

  • 機器翻譯:Google翻譯能判斷文法架構,了解意思夠翻譯成符合對應語言文法的字句。
  • 智能客服與聊天機器人:許多網站和App中的自動客服,能夠識別我們的問題並提供即時回應。
  • 文本過濾與分類:電子信箱中的垃圾郵件偵測系統,能自動識別並分類不受歡迎的郵件。
  • 輸入字建議:進行打字時自動推薦最接近的字或詞,幫助我們提升打字的效率。

只是傳統的NLP系統通常依賴較小規模的數據集,並使用較明確的規則系統來分析詞彙、句法,讓他在結構化的任務中表現出色。但是,它們在處理語言歧義性(比如 你很「機車」欸 ; 我有一台「機車」)與上下文理解上卻面臨挑戰,這正是後來登場的大型語言模型(LLM)所要解答的。

raw-image

大型語言模型(LLM):從理解到生成

如果說傳統NLP為機器語言理解奠定了文法與規則的基礎,那麼大型語言模型(LLM)就是在這樣的基礎上,透過海量數據與深度學習,讓它能不僅能讀懂語言,更能運用語言進行創造。

LLM的特點在於其 大型。它們透過在海量的文本資料(涵蓋書籍、網站文章、程式碼等)上進行訓練,從而學習到語言的複雜模式、語義結構與事實知識,LLM 就像是一個巨大的「統計預測機器」,他的任務相當單純,就是不斷預測每段字句的下一個詞,具體做法可以拆分成三個步驟。

步驟一:詞元化(Tokenization & Embeddings)

電腦只懂數字,不懂文字,因此,要把文字轉換成電腦理解的語言,我們需要先進行轉換:

  1. Tokenization(詞元化):模型會先將輸入的文本分解成更小的單元,稱為 tokens。一個token可以是一個單詞(如 "apple")、一個詞組(如 "New York")或甚至字根(如 "un-"、"-able")。

    小提醒: 詞元(token) 不等於 字!因此,上下文20萬token不代表20萬字。

  2. Embeddings(嵌入/向量化):接著,每個token會被投影到一個數學向量(即一長串數字)。這個向量並非隨機產生,而是能夠精準捕捉該token的**語義,**意義相近的詞語會被放置在相近的位置,使得模型能夠透過數學運算來理解詞語間的關係。

    白話舉例: 假如有 國王、男性、女性、女王 四個詞元,當他們向量化之後,就可以進行以下的運算 向量("國王") - 向量(男性") + 向量("女性") ≈ 向量("女王") 這樣就能透過向量捕捉到「性別」的概念,同樣的方法也能讓模型理解各種複雜的抽象概念


步驟二:理解上下文,Transformer與自注意力機制(Self-Attention)

雖然上一個步驟我們可以對每個詞元進行運算,但一個詞語的意義可能會根據上下文而改變,比如「蘋果」可以指水果,也可以指手機品牌。因此我們需要一種方法,讓模型可以根據上下文來推斷這個詞元代表的意思是什麼,而做到這件事情的關鍵,源於2017年一篇名為《Attention Is All You Need》的論文所提出的Transformer架構,而這個架構的核心,就是自注意力機制(Self-Attention Mechanism)

自注意力機制讓模型在處理每個詞時,能夠評估句子中所有其他詞與它的關聯性,從而動態地理解其在當前語境下的確切含義,我們可以將這個機制拆解成三個角色來理解:

  • Query (查詢):把它想像成一個詞語提出的「問題」,用來尋找與自己最相關的其他詞語。
  • Key (鍵):把它想像成句子中其他詞語為自己貼上的「名牌」,表明自己擁有哪些資訊。
  • Value (值):代表每個詞語實際包含的語義內容。

為了精準理解一個詞(例如「它」),模型需要弄清楚這個詞在當下語境中與句子裡其他詞的關聯有多緊密。首先,這個詞的Query(查詢)會向句子中所有其他的詞發問。而其他每個詞都會提供自己的Key(鍵)作為回應,就像是給自己貼上了一個「身份標籤」。接著,模型會計算這個Query與每一個Key的「匹配分數」,分數越高,代表關聯性越強。

這些分數接著被用來決定每個詞的Value(實際語義)應該被「關注」多少。關聯性強的詞,其Value會被賦予高權重,反之則低。最終,模型將所有詞的Value依權重加權混合,形成對原始詞彙(「它」)在該特定上下文中全新的、精準的理解。

白話舉例: 「我喜歡蘋果手機,因為它很好用」這句話中,模型想知道「它」是什麼意思, 就會發起「它」的Query,然後比對大家的Key,最後發現和「蘋果手機」的Key匹配分數很高 綜合所有分數之後,模型就會產生「它」的Value,理解「它」在這個句子裡是「蘋果手機」的代稱。


步驟三:模型的訓練與微調, 從通才到專才

LLM的學習過程並非一步到位,而是分為兩個主要階段,使其從一個知識廣博的「通才」轉變為特定領域的「專才」。

  1. 預訓練(Pre-training):這個階段是LLM學習的基礎。模型在一個包含數十億甚至數萬億詞彙的龐大通用數據集(如維基百科、公開書籍、網站文章)上進行自監督學習(self-supervised learning)。目標很簡單:預測文本中的下一個詞或被遮蓋的詞。透過這個過程,模型逐漸學習到廣泛的語言規則、語法結構、世界知識和基本的推理能力,成為一個知識淵博的基礎模型(Foundation Model)
  2. 微調(Fine-tuning):預訓練完成的基礎模型雖然強大,但可能不完全符合特定任務的需求。微調就是將這個模型在一個規模較小、帶有標籤的特定領域數據集上進行額外訓練,使其專精於某個任務。例如,用法律問答數據集微調後,模型能更準確地回答法律問題;用醫療報告數據集微調,則能更好地撰寫醫療摘要。
  3. 人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF):當模型輸出回應時,人類標註員會對模型的不同輸出進行評分和排序,模型根據這些回饋進行學習,使其產生的內容更符合人類的偏好、價值觀,也更安全、更有幫助。

與AI共創的新時代

從作為基礎的自然語言處理(NLP),到如今由Transformer架構驅動的大型語言模型(LLM),我們見證了AI在理解和生成語言能力上的巨大飛躍。LLM並非對NLP的取代,而是其能力的擴展與深化,二者互為補充,NLP提供語言處理的基本框架,而LLM則透過深度學習將其推向更高水平。未來的發展趨勢必然是兩者的深度融合。我們每個人都應持續關注這項將深刻影響人類社會的變革性技術,學習如何駕馭它,並共同塑造一個更智能、更高效的未來。

專業的AI Agent服務商 EgentHub 是台灣 AI 企業應用首選,同時,Egenthub 亦是支援 MCP串接企業級 AI Agent 管理平台,除了協助企業員工無痛自建AI Agents ,幫助企業將流程、知識與角色轉化,亦提供完整的權限管理機制,真正協助企業讓 AI 落地
留言
avatar-img
留言分享你的想法!
avatar-img
EgentHub 閱讀筆記
6會員
59內容數
EgentHub是由智慧方案股份有限公司打造的企業級 AI Agent 平台,協助企業將知識、經驗與流程萃取並轉化爲AI SOP,打造AI Agents支援日常決策、執行與協作,已有百家企業採用,涵蓋製造、紡織、金屬加工、電子、石化等產業,每月釋放超過2,000 小時人力工時,提升營運效率與精準度。
你可能也想看
Thumbnail
📌📌 AI / LLM 使用提醒📌📌 1️⃣ 隱私:不要餵個資或機密。 2️⃣ 正確性:AI 可能合理胡說。 3️⃣ 依賴性:輔助用,不是人生 GPS。 4️⃣ 偏見:輸出帶來源偏差,要存疑。 --- 這篇會直接進入應用,想看一些反思的推薦閱讀思考篇: 1.每天記錄值得感激三
Thumbnail
📌📌 AI / LLM 使用提醒📌📌 1️⃣ 隱私:不要餵個資或機密。 2️⃣ 正確性:AI 可能合理胡說。 3️⃣ 依賴性:輔助用,不是人生 GPS。 4️⃣ 偏見:輸出帶來源偏差,要存疑。 --- 這篇會直接進入應用,想看一些反思的推薦閱讀思考篇: 1.每天記錄值得感激三
Thumbnail
本文深度評測 ChatGPT、Grok、Claude、Perplexity 等專才型 AI,分析誰是創意王者、誰是情報專家,並提供一份基於任務需求的 AI 工具選擇指南,終結你的選擇困難。
Thumbnail
本文深度評測 ChatGPT、Grok、Claude、Perplexity 等專才型 AI,分析誰是創意王者、誰是情報專家,並提供一份基於任務需求的 AI 工具選擇指南,終結你的選擇困難。
Thumbnail
AI蓬勃發展了三年,想必大家已經很熟悉目前交談式的AI相關應用,但如果你侷限的是某些領域以及非公開的知識庫查詢,需要餵資料進去資料庫,讓LLM來針對這個非公開的知識庫做問答,那你就可以考量RAG這個檢索增強生成的AI技術來達成這個目標。 RAG是做LLM前置的資料處理跟檢索處理,可分為幾個階段:
Thumbnail
AI蓬勃發展了三年,想必大家已經很熟悉目前交談式的AI相關應用,但如果你侷限的是某些領域以及非公開的知識庫查詢,需要餵資料進去資料庫,讓LLM來針對這個非公開的知識庫做問答,那你就可以考量RAG這個檢索增強生成的AI技術來達成這個目標。 RAG是做LLM前置的資料處理跟檢索處理,可分為幾個階段:
Thumbnail
本文探討 RAG + LLM 技術的應用與挑戰,分析 Google、IBM、微軟、AWS 等科技巨頭和開源社群的策略,並提供新進業者和企業在導入 RAG + LLM 系統時的建議,包括重視向量空間建立、選擇合適的 RAG 策略、持續學習和實驗以及資料品質等面向。
Thumbnail
本文探討 RAG + LLM 技術的應用與挑戰,分析 Google、IBM、微軟、AWS 等科技巨頭和開源社群的策略,並提供新進業者和企業在導入 RAG + LLM 系統時的建議,包括重視向量空間建立、選擇合適的 RAG 策略、持續學習和實驗以及資料品質等面向。
Thumbnail
本文探討提升大語言模型 (LLM) 效能的三種關鍵技術:LLM 微調、RAG (檢索增強生成) 和知識蒸餾,比較其優勢和挑戰,並深入分析 RAG 與知識蒸餾的結合應用及未來發展方向。
Thumbnail
本文探討提升大語言模型 (LLM) 效能的三種關鍵技術:LLM 微調、RAG (檢索增強生成) 和知識蒸餾,比較其優勢和挑戰,並深入分析 RAG 與知識蒸餾的結合應用及未來發展方向。
Thumbnail
DeepSeek 模型推出後,引發了不少討論,值得注意的是,它的 API 格式與 OpenAI 相同,使用的庫和 HTTP 請求也十分相似。
Thumbnail
DeepSeek 模型推出後,引發了不少討論,值得注意的是,它的 API 格式與 OpenAI 相同,使用的庫和 HTTP 請求也十分相似。
Thumbnail
今天我正式從內容組&師培組畢業,轉移到均一的第二事業體:AI 家教事業體。均一推行非營利的教育平臺,秉持均等一流且免費的「數位學習」內容與環境,也推廣「差異化教學」。AI家教的出現是一個新的轉捩點,讓孩子可以享受到個人化的學習體驗,未來希望實現均等一流的AI家教服務與環境,實現個人化學習的願景。
Thumbnail
今天我正式從內容組&師培組畢業,轉移到均一的第二事業體:AI 家教事業體。均一推行非營利的教育平臺,秉持均等一流且免費的「數位學習」內容與環境,也推廣「差異化教學」。AI家教的出現是一個新的轉捩點,讓孩子可以享受到個人化的學習體驗,未來希望實現均等一流的AI家教服務與環境,實現個人化學習的願景。
Thumbnail
AI工具導入會是第四次工業革命的開始,對日後的工作機會和型態產生根本性的變化,本文分成3大部分各別討論: (1)文科生將再次迎來出頭天;(2)理工科學生工作機會將大幅減少;(3)一人公司數量將爆發性成長。
Thumbnail
AI工具導入會是第四次工業革命的開始,對日後的工作機會和型態產生根本性的變化,本文分成3大部分各別討論: (1)文科生將再次迎來出頭天;(2)理工科學生工作機會將大幅減少;(3)一人公司數量將爆發性成長。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News