[AI小學堂(5)]大型語言模型LLM是怎麼一回事?

更新於 發佈於 閱讀時間約 0 分鐘
LLM

LLM

我們過去有介紹過,關於神經網路的一系列文章,看過的人應該可以了解神經網路的大致結構,還有他能夠拿來做什麼。 不過神經網路本身也只是為了達到AI 人工智慧的一個方法,最近很紅的ChatGPT難道也是用神經網路來實作的嗎? ChatGPT背後的技術 大型語言模型 是否與我們前面介紹的神經網路相同呢? 答案是不同的,這也是我們想要進一步探討了解的課題。

要說明大型語言模型這個複雜的概念確實不容易,本篇的內容是我從這個Youtube影片簡化而來的,有興趣的人不妨直接去看看原本的影片(但是要一次看懂我覺得沒那麼簡單)。

首先要理解大型語言模型,我們拆解一下語言模型是什麼,我們先不要理解這麼複雜的概念,就講講跟一般的真人對話好了,根據你問的問題,對方應該要回答出合適的答案,而不是一堆牛頭不對馬嘴對吧? 而且更重要的是,對方的回答應該要語意通順,不是一些沒有意義的文字組合。 對電腦或是人工智慧來說,他要做的事情,就是根據你的"輸入",來產生一組輸出。
再進一步講,根據你的輸入,電腦要做的事情就是"預測出一組最合理的輸出"。最簡單的例子就是我們平常使用Google Search的時候,都會有自動的預測

Google Search

Google Search

根據你已經打入的字句(這邊的例子是水果),那麼搜尋引擎就會先列出幾個最有可能的搜尋結果,這就是一種最基本由輸入預測輸出的結果。

Google Search 2

Google Search 2

根據你給的輸入改變,搜尋引擎輸出的結果也會不斷的改變,這些搜尋引擎預測的結果應該是依照"出現的機率+你的個人喜好" 來排序的。

大型語言模型也是這樣的一回事嗎? 從希望做到的事情來看是相似的,我們希望根據"輸入的文字" 產生一組"輸出的文字",這就類似我們讓中文輸入法自動打字一直延伸下去 但是通常都會產生完全不通順的字眼如下

輸入法自動輸入

輸入法自動輸入

為什麼會發生這樣的事情呢? 很簡單,因為輸入法的輸入,通常都是根據上一個字來做預測而已。就算是google 引擎的搜尋,也通常是長度很有限的輸入。但是問題來了,如果我們要產生非常複雜的回答,舉例來說,給你一篇寫了一半的作文,但是要你繼續寫下去,就沒有那麼的單純

寫一半的小說

寫一半的小說

這篇寫到一半的懸疑小說,如果要接續下去,那麼電腦要參考的文字就不是只有最結尾的"哭泣聲..."這三個字,而是 "整篇文章都要參考",唯有整篇文章都參考了才能夠合理的預測接下來文字該怎麼描寫。對電腦來說,就是下一個字的產生,需要參考整篇文章的所有字, 這樣的函數可以寫成類似以下的函數。

raw-image

問題就是,這樣的函數太過複雜了,假設一個句子只有10個字好了,那麼考慮到所有可以產生出來的句子組合,一樣是天文數字,完全無法計算跟解析,既然無法解決這麼複雜的問題,那麼我們就應該要找到一個好的近似的方法,來解決這樣的問題。之前也有提到,神經網路也就是一種用來猜測預測的方式,而對於一個文字排列出來的句子,能夠列出這個序列出現的機率,就是一種語言模型了。語言模型就是人類以神經網路發明出來,用來預測文字排列產生的機率的(當然也就能夠依照機率產生出相應的文字)。 我們根據之前的文章也知道,神經網路的模型是需要經過訓練的,而模型本身越大越複雜,訓練的資料越多,就能夠處理還有模擬更複雜的真實世界的事物,所謂的大型語言模型,就是餵入超大量文字訓練的語言模型。

今天這一篇我們先簡單的介紹到這邊,接下來我們會想辦法介紹,針對大型語言模型專家使用的模型Transformer ,他的基本原理是什麼,還有為什麼適合語言模型,我們下次見囉。

技術PM的AI實驗室,是以輕鬆的角度深入簡出的探討各種生成式AI工具的使用。無論你是想理解AI到底是怎麼運作的? 想知道有那些好用的生成式AI工具? 或者是對AI繪圖有興趣的,都歡迎加入我們的AI實驗室一起輕鬆地玩耍,我們邊玩邊學,學習跟AI一起共創新的可能。
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
你可能也想看
Google News 追蹤
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 GPT-4 等大型語言模型 (LLM) 可以解釋語言模型中的神經元,OpenAI 創建了直覺的介面並於 2023 年 5 月公開。人工智慧的歷史在非常短的時間內已經達到
ChatGPT 能力大盤點:深入了解 AI 的核心功能與應用 目錄 ChatGPT 的誕生與背景 文字生成:多樣化的應用場景 語言翻譯與跨文化溝通 資料分析與數據洞察 商業策略與決策輔助 教育與知識傳播:AI 的新角色 內容創作與行銷工具 創意發想與腦力激盪 倫理與隱私問題:AI
Thumbnail
在現今科技日新月異的時代,像ChatGPT這樣的大語言模型(LLM)已經成為許多人日常生活和工作的輔助工具。然而,隨著這些技術的普及,對於它們的誤解也層出不窮,這使得一些使用者對這些工具的期待與實際效果脫節,最近在網路上看到兩個實際案例,藉此分享一下一般常見的誤解。
大型語言模型的訓練依賴於多元化且高品質的資料來源,這些來源共同構成了模型學習人類語言的基礎。隨著技術進步和數據收集方法的改進,未來LLM將能夠更好地理解和生成自然語言。
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
隨著理財資訊的普及,越來越多台灣人不再將資產侷限於台股,而是將視野拓展到國際市場。特別是美國市場,其豐富的理財選擇,讓不少人開始思考將資金配置於海外市場的可能性。 然而,要參與美國市場並不只是盲目跟隨標的這麼簡單,而是需要策略和方式,尤其對新手而言,除了選股以外還會遇到語言、開戶流程、Ap
Thumbnail
嘿,大家新年快樂~ 新年大家都在做什麼呢? 跨年夜的我趕工製作某個外包設計案,在工作告一段落時趕上倒數。 然後和兩個小孩過了一個忙亂的元旦。在深夜時刻,看到朋友傳來的解籤網站,興致勃勃熬夜體驗了一下,覺得非常好玩,或許有人玩過了,但還是想寫上來分享紀錄一下~
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 GPT-4 等大型語言模型 (LLM) 可以解釋語言模型中的神經元,OpenAI 創建了直覺的介面並於 2023 年 5 月公開。人工智慧的歷史在非常短的時間內已經達到
ChatGPT 能力大盤點:深入了解 AI 的核心功能與應用 目錄 ChatGPT 的誕生與背景 文字生成:多樣化的應用場景 語言翻譯與跨文化溝通 資料分析與數據洞察 商業策略與決策輔助 教育與知識傳播:AI 的新角色 內容創作與行銷工具 創意發想與腦力激盪 倫理與隱私問題:AI
Thumbnail
在現今科技日新月異的時代,像ChatGPT這樣的大語言模型(LLM)已經成為許多人日常生活和工作的輔助工具。然而,隨著這些技術的普及,對於它們的誤解也層出不窮,這使得一些使用者對這些工具的期待與實際效果脫節,最近在網路上看到兩個實際案例,藉此分享一下一般常見的誤解。
大型語言模型的訓練依賴於多元化且高品質的資料來源,這些來源共同構成了模型學習人類語言的基礎。隨著技術進步和數據收集方法的改進,未來LLM將能夠更好地理解和生成自然語言。
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?