[AI小學堂(5)]大型語言模型LLM是怎麼一回事?

更新於 2023/08/27發佈於 2023/08/27

LLM

我們過去有介紹過，關於神經網路的一系列文章，看過的人應該可以了解神經網路的大致結構，還有他能夠拿來做什麼。不過神經網路本身也只是為了達到AI 人工智慧的一個方法，最近很紅的ChatGPT難道也是用神經網路來實作的嗎? ChatGPT背後的技術大型語言模型是否與我們前面介紹的神經網路相同呢? 答案是不同的，這也是我們想要進一步探討了解的課題。

要說明大型語言模型這個複雜的概念確實不容易，本篇的內容是我從這個Youtube影片簡化而來的，有興趣的人不妨直接去看看原本的影片(但是要一次看懂我覺得沒那麼簡單)。

首先要理解大型語言模型，我們拆解一下語言模型是什麼，我們先不要理解這麼複雜的概念，就講講跟一般的真人對話好了，根據你問的問題，對方應該要回答出合適的答案，而不是一堆牛頭不對馬嘴對吧? 而且更重要的是，對方的回答應該要語意通順，不是一些沒有意義的文字組合。對電腦或是人工智慧來說，他要做的事情，就是根據你的"輸入"，來產生一組輸出。
再進一步講，根據你的輸入，電腦要做的事情就是"預測出一組最合理的輸出"。最簡單的例子就是我們平常使用Google Search的時候，都會有自動的預測

Google Search

根據你已經打入的字句(這邊的例子是水果)，那麼搜尋引擎就會先列出幾個最有可能的搜尋結果，這就是一種最基本由輸入預測輸出的結果。

Google Search 2

根據你給的輸入改變，搜尋引擎輸出的結果也會不斷的改變，這些搜尋引擎預測的結果應該是依照"出現的機率+你的個人喜好" 來排序的。

大型語言模型也是這樣的一回事嗎? 從希望做到的事情來看是相似的，我們希望根據"輸入的文字" 產生一組"輸出的文字"，這就類似我們讓中文輸入法自動打字一直延伸下去但是通常都會產生完全不通順的字眼如下

輸入法自動輸入

為什麼會發生這樣的事情呢? 很簡單，因為輸入法的輸入，通常都是根據上一個字來做預測而已。就算是google 引擎的搜尋，也通常是長度很有限的輸入。但是問題來了，如果我們要產生非常複雜的回答，舉例來說，給你一篇寫了一半的作文，但是要你繼續寫下去，就沒有那麼的單純

寫一半的小說

這篇寫到一半的懸疑小說，如果要接續下去，那麼電腦要參考的文字就不是只有最結尾的"哭泣聲..."這三個字，而是 "整篇文章都要參考"，唯有整篇文章都參考了才能夠合理的預測接下來文字該怎麼描寫。對電腦來說，就是下一個字的產生，需要參考整篇文章的所有字，這樣的函數可以寫成類似以下的函數。

問題就是，這樣的函數太過複雜了，假設一個句子只有10個字好了，那麼考慮到所有可以產生出來的句子組合，一樣是天文數字，完全無法計算跟解析，既然無法解決這麼複雜的問題，那麼我們就應該要找到一個好的近似的方法，來解決這樣的問題。之前也有提到，神經網路也就是一種用來猜測預測的方式，而對於一個文字排列出來的句子，能夠列出這個序列出現的機率，就是一種語言模型了。語言模型就是人類以神經網路發明出來，用來預測文字排列產生的機率的(當然也就能夠依照機率產生出相應的文字)。我們根據之前的文章也知道，神經網路的模型是需要經過訓練的，而模型本身越大越複雜，訓練的資料越多，就能夠處理還有模擬更複雜的真實世界的事物，所謂的大型語言模型，就是餵入超大量文字訓練的語言模型。

今天這一篇我們先簡單的介紹到這邊，接下來我們會想辦法介紹，針對大型語言模型專家使用的模型Transformer ，他的基本原理是什麼，還有為什麼適合語言模型，我們下次見囉。

#AI

#DeepLearning

#ChatGPT

技術PM路易斯的沙龍技術PM的AI實驗室ChatGPT應用技術PM路易斯的沙龍技術PM的AI實驗室AI深度學習

留言

留言分享你的想法！

技術PM路易斯的沙龍

50會員

35內容數

技術PM的AI實驗室，是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的，都歡迎加入我們的AI實驗室一起輕鬆地玩耍，我們邊玩邊學，學習跟AI一起共創新的可能。

技術PM路易斯的沙龍的其他內容

2023/12/23

瞬間生圖的SDXL-Turbo有什麼重要性?

SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低)，完全是以速度取勝，那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。

2023/12/23

瞬間生圖的SDXL-Turbo有什麼重要性?

2023/11/18

理想的AI載具是什麼?

這篇文章會跟大家介紹，為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一，讓AI往成為真正人工智慧代理人的路上前進了一大步，我們也會稍微探討(想像)一下，所謂的理想的AI載具到底應該是怎樣的?

2023/11/18

理想的AI載具是什麼?

2023/11/01

[AI翻譯] 好文分享 - 兩種學習 AI提示詞的方法

本篇文章是以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章，並且稍微加上修飾而來的，是一篇相當好的該如何使用AI的引言，分享給各位。我們學到的就是，只要使用AI，你就會學會如何使用AI。你只需大量使用AI，直到你弄清楚它的優點和缺點，就可以成為你領域的AI應用專家。

2023/11/01

[AI翻譯] 好文分享 - 兩種學習 AI提示詞的方法

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

重點摘要： 6 月繼續維持基準利率不變，強調維持高利率主因為關稅點陣圖表現略為鷹派，收斂 2026、2027 年降息預期 SEP 連續 2 季下修 GDP、上修通膨預測值 --- 1.繼續維持利率不變，強調需要維持高利率是因為關稅：聯準會 (Fed) 召開 6 月利率會議

#Fed#聯準會#美股

2025/06/18

美股 Insight

6月Fed會議：略為鷹派收斂2026、2027年降息預期，繼續維持高利率更長時間的觀望態度

#Fed#聯準會#美股

2025/06/18

普普文創

【文化創意】如何真正有效使用 ChatGPT：從工具到夥伴的轉變 | 產業觀察

在這個 AI 蓬勃發展的時代，大語言模型（LLM）已逐漸成為我們日常工作、學習、甚至創作上的重要工具。ChatGPT 就是其中一個廣為人知的例子。然而，許多人初次接觸它時，會誤以為它像搜尋引擎，只需輸入一個問題，就能得到完美解答。但事實上，它的使用邏輯與傳統工具完全不同，它不只是單純地「回應」，而是

#文化創意#如何真正有效使用ChatGPT#從工具到夥伴的轉變

2025/04/23

普普文創

【文化創意】如何真正有效使用 ChatGPT：從工具到夥伴的轉變 | 產業觀察

#文化創意#如何真正有效使用ChatGPT#從工具到夥伴的轉變

2025/04/23

李稞生的沙龍

AI論與談—把脈大型語言模型

ChatGPT於2022年底問世後，人們陷入興奮、緊張、恐懼的情緒。ChatGPT屬於大型語言模型，簡稱LLM(large language model)。⋯ 一旦LLM開始變成服務後，當一個人無法駕馭一個LLM時，被淘汰的變成是LLM而非這個人了。⋯

2023/09/23

2023/09/23

AI浪潮自從去年ChatGPT後，AI這個本來沉寂已久的話題，瞬間火爆全世界，不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型，包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等，抑或是開始推出自己的生成式AI工具等等，例如Google的Bard、百

2023/07/14

2023/07/14

【LLM大型語言模型】淺談生成式AI的一些困境

雖然ChatGPT這種基於大型語言模型(LLM)的助手，在大部分的場景都能滿足我們的需求，但也並非完美，在使用時仍需注意一些隱患。以下是LLM的一些缺陷及需要注意的點。弱弱的數學造成明顯錯誤過份樂觀帶來錯誤資訊相信常常使用ChatGPT的朋友應該都有發現到，不論我們怎麼提問， Cha

#ChatGPT#生成式AI#AI

2023/06/30

阿Han的沙龍

【LLM大型語言模型】淺談生成式AI的一些困境

#ChatGPT#生成式AI#AI

2023/06/30

Ted Chen的沙龍

生成式 AI 之大資料的驚人發現

本文探討大資料對模型的影響。研究指出，大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下，DeepMind發現適應參數數量更重要，這使模型Chinchilla以較小規模但更多訓練資料，在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義，應增加訓練資料。

2023/06/20

2023/06/20

本文探討大型語言模型的兩種主要類型：GPT和BERT。GPT，如ChatGPT，被視為"通才"，能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點：專才模型在特定任務上準確度高，而通才模型靈活多功能。選擇哪種取決於需求和目標。

2023/06/07

2023/06/07

ChatGPT 是什麼？ ChatGPT 的原理

這篇文章介紹了ChatGPT，一種大型的語言模型，能以自然語言回答問題，但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習，通過大量的網路資料進行訓練，讓模型能進行文字接龍。儘管GPT系列經歷了多次演進，並需用大量的訓練資料，它的問答能力仍有待提升。然而，透過不斷優化，我們已有了更進一步的版本

#ChatGPT#GPT技術#語言模型

2023/05/26