[AI小學堂(5)]大型語言模型LLM是怎麼一回事?

更新於 發佈於
LLM

LLM

我們過去有介紹過,關於神經網路的一系列文章,看過的人應該可以了解神經網路的大致結構,還有他能夠拿來做什麼。 不過神經網路本身也只是為了達到AI 人工智慧的一個方法,最近很紅的ChatGPT難道也是用神經網路來實作的嗎? ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。

要說明大型語言模型這個複雜的概念確實不容易,本篇的內容是我從這個Youtube影片簡化而來的,有興趣的人不妨直接去看看原本的影片(但是要一次看懂我覺得沒那麼簡單)。

首先要理解大型語言模型,我們拆解一下語言模型是什麼,我們先不要理解這麼複雜的概念,就講講跟一般的真人對話好了,根據你問的問題,對方應該要回答出合適的答案,而不是一堆牛頭不對馬嘴對吧? 而且更重要的是,對方的回答應該要語意通順,不是一些沒有意義的文字組合。 對電腦或是人工智慧來說,他要做的事情,就是根據你的"輸入",來產生一組輸出。
再進一步講,根據你的輸入,電腦要做的事情就是"預測出一組最合理的輸出"。最簡單的例子就是我們平常使用Google Search的時候,都會有自動的預測

Google Search

Google Search

根據你已經打入的字句(這邊的例子是水果),那麼搜尋引擎就會先列出幾個最有可能的搜尋結果,這就是一種最基本由輸入預測輸出的結果。

Google Search 2

Google Search 2

根據你給的輸入改變,搜尋引擎輸出的結果也會不斷的改變,這些搜尋引擎預測的結果應該是依照"出現的機率+你的個人喜好" 來排序的。

大型語言模型也是這樣的一回事嗎? 從希望做到的事情來看是相似的,我們希望根據"輸入的文字" 產生一組"輸出的文字",這就類似我們讓中文輸入法自動打字一直延伸下去 但是通常都會產生完全不通順的字眼如下

輸入法自動輸入

輸入法自動輸入

為什麼會發生這樣的事情呢? 很簡單,因為輸入法的輸入,通常都是根據上一個字來做預測而已。就算是google 引擎的搜尋,也通常是長度很有限的輸入。但是問題來了,如果我們要產生非常複雜的回答,舉例來說,給你一篇寫了一半的作文,但是要你繼續寫下去,就沒有那麼的單純

寫一半的小說

寫一半的小說

這篇寫到一半的懸疑小說,如果要接續下去,那麼電腦要參考的文字就不是只有最結尾的"哭泣聲..."這三個字,而是 "整篇文章都要參考",唯有整篇文章都參考了才能夠合理的預測接下來文字該怎麼描寫。對電腦來說,就是下一個字的產生,需要參考整篇文章的所有字, 這樣的函數可以寫成類似以下的函數。

raw-image

問題就是,這樣的函數太過複雜了,假設一個句子只有10個字好了,那麼考慮到所有可以產生出來的句子組合,一樣是天文數字,完全無法計算跟解析,既然無法解決這麼複雜的問題,那麼我們就應該要找到一個好的近似的方法,來解決這樣的問題。之前也有提到,神經網路也就是一種用來猜測預測的方式,而對於一個文字排列出來的句子,能夠列出這個序列出現的機率,就是一種語言模型了。語言模型就是人類以神經網路發明出來,用來預測文字排列產生的機率的(當然也就能夠依照機率產生出相應的文字)。 我們根據之前的文章也知道,神經網路的模型是需要經過訓練的,而模型本身越大越複雜,訓練的資料越多,就能夠處理還有模擬更複雜的真實世界的事物,所謂的大型語言模型,就是餵入超大量文字訓練的語言模型。

今天這一篇我們先簡單的介紹到這邊,接下來我們會想辦法介紹,針對大型語言模型專家使用的模型Transformer ,他的基本原理是什麼,還有為什麼適合語言模型,我們下次見囉。

留言
avatar-img
留言分享你的想法!
avatar-img
技術PM路易斯的沙龍
49會員
35內容數
技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/12/23
SDXL Turbo主打可以1 step就產生一定品質的圖片 (圖片品質比SDXL甚至SD 1.5還要低),完全是以速度取勝,那麼SDXL Turbo這個技術代表的是怎樣的突破呢? 究竟秒出圖的技術能夠有什麼實際的應用呢? 這就是我們這篇想要探討的。
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
2023/11/18
這篇文章會跟大家介紹,為什麼我覺得ChatGPT的多模態輸入輸出其實是最重要的一個功能之一,讓AI往成為真正人工智慧代理人的路上前進了一大步,我們也會稍微探討(想像)一下,所謂的理想的AI載具到底應該是怎樣的?
Thumbnail
2023/11/01
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
2023/11/01
本篇文章是 以ChatGPT翻譯華頓商學院教授Ethan Mollick的文章,並且稍微加上修飾而來的,是一篇相當好的該如何使用AI的引言,分享給各位。 我們學到的就是,只要使用AI,你就會學會如何使用AI。你只需大量使用AI,直到你弄清楚它的優點和缺點,就可以成為你領域的AI應用專家。
Thumbnail
看更多
你可能也想看
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
「欸!這是在哪裡買的?求連結 🥺」 誰叫你太有品味,一發就讓大家跟著剁手手? 讓你回購再回購的生活好物,是時候該介紹出場了吧! 「開箱你的美好生活」現正召喚各路好物的開箱使者 🤩
Thumbnail
在這個 AI 蓬勃發展的時代,大語言模型(LLM)已逐漸成為我們日常工作、學習、甚至創作上的重要工具。ChatGPT 就是其中一個廣為人知的例子。然而,許多人初次接觸它時,會誤以為它像搜尋引擎,只需輸入一個問題,就能得到完美解答。但事實上,它的使用邏輯與傳統工具完全不同,它不只是單純地「回應」,而是
Thumbnail
在這個 AI 蓬勃發展的時代,大語言模型(LLM)已逐漸成為我們日常工作、學習、甚至創作上的重要工具。ChatGPT 就是其中一個廣為人知的例子。然而,許多人初次接觸它時,會誤以為它像搜尋引擎,只需輸入一個問題,就能得到完美解答。但事實上,它的使用邏輯與傳統工具完全不同,它不只是單純地「回應」,而是
Thumbnail
ChatGPT於2022年底問世後,人們陷入興奮、緊張、恐懼的情緒。ChatGPT屬於大型語言模型,簡稱LLM(large language model)。⋯ 一旦LLM開始變成服務後,當一個人無法駕馭一個LLM時,被淘汰的變成是LLM而非這個人了。⋯
Thumbnail
ChatGPT於2022年底問世後,人們陷入興奮、緊張、恐懼的情緒。ChatGPT屬於大型語言模型,簡稱LLM(large language model)。⋯ 一旦LLM開始變成服務後,當一個人無法駕馭一個LLM時,被淘汰的變成是LLM而非這個人了。⋯
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
AI浪潮 自從去年ChatGPT後,AI這個本來沉寂已久的話題,瞬間火爆全世界,不論是各家各戶開始瘋狂訓練自己的大語言模型與基礎模型,包含法國的Bloom、Meta的LLaMA、AWS的Titan、Google的LaMDA等等,抑或是開始推出自己的生成式AI工具等等,例如Google的Bard、百
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
雖然ChatGPT這種基於大型語言模型(LLM)的助手, 在大部分的場景都能滿足我們的需求, 但也並非完美, 在使用時仍需注意一些隱患。 以下是LLM的一些缺陷及需要注意的點。 弱弱的數學造成明顯錯誤 過份樂觀帶來錯誤資訊 相信常常使用ChatGPT的朋友應該都有發現到, 不論我們怎麼提問, Cha
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大資料對模型的影響。研究指出,大資料量對模型的語法和世界知識理解有顯著影響。固定運算資源下,DeepMind發現適應參數數量更重要,這使模型Chinchilla以較小規模但更多訓練資料,在實際任務中優於Gopher模型。這說明增大模型的規模已不具有太大意義,應增加訓練資料。
Thumbnail
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
Thumbnail
本文探討大型語言模型的兩種主要類型:GPT和BERT。GPT,如ChatGPT,被視為"通才",能執行多種任務。BERT則被視為"專才"的基本語言模型。兩者各有優點:專才模型在特定任務上準確度高,而通才模型靈活多功能。選擇哪種取決於需求和目標。
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
Thumbnail
這篇文章介紹了ChatGPT,一種大型的語言模型,能以自然語言回答問題,但不透過搜尋罐頭文字或網路內容。其核心技術是自監督式學習,通過大量的網路資料進行訓練,讓模型能進行文字接龍。儘管GPT系列經歷了多次演進,並需用大量的訓練資料,它的問答能力仍有待提升。然而,透過不斷優化,我們已有了更進一步的版本
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News