[AI小學堂(5)]大型語言模型LLM是怎麼一回事?

更新於 發佈於
LLM

LLM

我們過去有介紹過,關於神經網路的一系列文章,看過的人應該可以了解神經網路的大致結構,還有他能夠拿來做什麼。 不過神經網路本身也只是為了達到AI 人工智慧的一個方法,最近很紅的ChatGPT難道也是用神經網路來實作的嗎? ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。

要說明大型語言模型這個複雜的概念確實不容易,本篇的內容是我從這個Youtube影片簡化而來的,有興趣的人不妨直接去看看原本的影片(但是要一次看懂我覺得沒那麼簡單)。

首先要理解大型語言模型,我們拆解一下語言模型是什麼,我們先不要理解這麼複雜的概念,就講講跟一般的真人對話好了,根據你問的問題,對方應該要回答出合適的答案,而不是一堆牛頭不對馬嘴對吧? 而且更重要的是,對方的回答應該要語意通順,不是一些沒有意義的文字組合。 對電腦或是人工智慧來說,他要做的事情,就是根據你的"輸入",來產生一組輸出。
再進一步講,根據你的輸入,電腦要做的事情就是"預測出一組最合理的輸出"。最簡單的例子就是我們平常使用Google Search的時候,都會有自動的預測

Google Search

Google Search

根據你已經打入的字句(這邊的例子是水果),那麼搜尋引擎就會先列出幾個最有可能的搜尋結果,這就是一種最基本由輸入預測輸出的結果。

Google Search 2

Google Search 2

根據你給的輸入改變,搜尋引擎輸出的結果也會不斷的改變,這些搜尋引擎預測的結果應該是依照"出現的機率+你的個人喜好" 來排序的。

大型語言模型也是這樣的一回事嗎? 從希望做到的事情來看是相似的,我們希望根據"輸入的文字" 產生一組"輸出的文字",這就類似我們讓中文輸入法自動打字一直延伸下去 但是通常都會產生完全不通順的字眼如下

輸入法自動輸入

輸入法自動輸入

為什麼會發生這樣的事情呢? 很簡單,因為輸入法的輸入,通常都是根據上一個字來做預測而已。就算是google 引擎的搜尋,也通常是長度很有限的輸入。但是問題來了,如果我們要產生非常複雜的回答,舉例來說,給你一篇寫了一半的作文,但是要你繼續寫下去,就沒有那麼的單純

寫一半的小說

寫一半的小說

這篇寫到一半的懸疑小說,如果要接續下去,那麼電腦要參考的文字就不是只有最結尾的"哭泣聲..."這三個字,而是 "整篇文章都要參考",唯有整篇文章都參考了才能夠合理的預測接下來文字該怎麼描寫。對電腦來說,就是下一個字的產生,需要參考整篇文章的所有字, 這樣的函數可以寫成類似以下的函數。

raw-image

問題就是,這樣的函數太過複雜了,假設一個句子只有10個字好了,那麼考慮到所有可以產生出來的句子組合,一樣是天文數字,完全無法計算跟解析,既然無法解決這麼複雜的問題,那麼我們就應該要找到一個好的近似的方法,來解決這樣的問題。之前也有提到,神經網路也就是一種用來猜測預測的方式,而對於一個文字排列出來的句子,能夠列出這個序列出現的機率,就是一種語言模型了。語言模型就是人類以神經網路發明出來,用來預測文字排列產生的機率的(當然也就能夠依照機率產生出相應的文字)。 我們根據之前的文章也知道,神經網路的模型是需要經過訓練的,而模型本身越大越複雜,訓練的資料越多,就能夠處理還有模擬更複雜的真實世界的事物,所謂的大型語言模型,就是餵入超大量文字訓練的語言模型。

今天這一篇我們先簡單的介紹到這邊,接下來我們會想辦法介紹,針對大型語言模型專家使用的模型Transformer ,他的基本原理是什麼,還有為什麼適合語言模型,我們下次見囉。

留言
avatar-img
留言分享你的想法!
avatar-img
技術PM路易斯的沙龍
50會員
35內容數
技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
2023/11/01
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
2023/11/01
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
看更多
你可能也想看
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》,我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物;這次活動不僅送出了許多獎勵,也反映了「內容有價」——創作不只是分享、紀錄,也能用各種不同形式變現、帶來實際收入。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
在這個 AI 蓬勃發展的時代,大語言模型(LLM)已逐漸成為我們日常工作、學習、甚至創作上的重要工具。ChatGPT 就是其中一個廣為人知的例子。然而,許多人初次接觸它時,會誤以為它像搜尋引擎,只需輸入一個問題,就能得到完美解答。但事實上,它的使用邏輯與傳統工具完全不同,它不只是單純地「回應」,而是
Thumbnail
在這個 AI 蓬勃發展的時代,大語言模型(LLM)已逐漸成為我們日常工作、學習、甚至創作上的重要工具。ChatGPT 就是其中一個廣為人知的例子。然而,許多人初次接觸它時,會誤以為它像搜尋引擎,只需輸入一個問題,就能得到完美解答。但事實上,它的使用邏輯與傳統工具完全不同,它不只是單純地「回應」,而是
Thumbnail
ChatGPT於2022年底問世後,人們陷入興奮、緊張、恐懼的情緒。ChatGPT屬於大型語言模型,簡稱LLM(large language model)。⋯ 一旦LLM開始變成服務後,當一個人無法駕馭一個LLM時,被淘汰的變成是LLM而非這個人了。⋯
Thumbnail
ChatGPT於2022年底問世後,人們陷入興奮、緊張、恐懼的情緒。ChatGPT屬於大型語言模型,簡稱LLM(large language model)。⋯ 一旦LLM開始變成服務後,當一個人無法駕馭一個LLM時,被淘汰的變成是LLM而非這個人了。⋯
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
Thumbnail
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
[進行中未完成] 1.簡介 本文旨在讓沒有計算機科學背景的人對ChatGPT和類似的人工智能系統 (如GPT-3、GPT-4、Bing Chat、Bard等)有一些了解。 ChatGPT是一種聊天機器人,是建立在大型語言模型之上的對話型人工智能。專業術語可能會讓人感到陌生,但此文將一一解釋這些概念。
Thumbnail
在正式以比較技術面角度來認識 ChatGPT / GPT 之前,我們先用幾個簡單的例子來認識 ChatGPT 以及語言模型可以做到怎樣的事情。 什麼是 ChatGPT? 簡單來說明,ChatGPT 是一個背後使用 GPT 語言模型的對話機器人,而它可以做什麼事情了?我們先來使用幾個常見的語言相關的任
Thumbnail
在正式以比較技術面角度來認識 ChatGPT / GPT 之前,我們先用幾個簡單的例子來認識 ChatGPT 以及語言模型可以做到怎樣的事情。 什麼是 ChatGPT? 簡單來說明,ChatGPT 是一個背後使用 GPT 語言模型的對話機器人,而它可以做什麼事情了?我們先來使用幾個常見的語言相關的任
Thumbnail
什麼是LLM? 根據Meta AI的文章提到,大型語言模型是具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量文字訓練,能夠閱讀並回答問題或者生成新的文字。 同時LLM們,不一定只能去產新的文字,而是端看參數是什麼,如果參數的
Thumbnail
什麼是LLM? 根據Meta AI的文章提到,大型語言模型是具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量文字訓練,能夠閱讀並回答問題或者生成新的文字。 同時LLM們,不一定只能去產新的文字,而是端看參數是什麼,如果參數的
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News