粗淺聊一下大語言模型LLM

閱讀時間約 3 分鐘

什麼是LLM?

根據Meta AI的文章提到,大型語言模型是具有超過 1,000 億個參數的自然語言處理(natural language processing,NLP)系統,經過大量文字訓練,能夠閱讀並回答問題或者生成新的文字。
同時LLM們,不一定只能去產新的文字,而是端看參數是什麼,如果參數的內容夠豐富,這個模型也能去做到其他的事情,比如產生程式碼、影像等等
而近期非常火紅的ChatGPT,就是一個很好的LLM範例,而且他的數據都龐大,且能透過搜索新的資料,去豐富其參數,故其模型能回答越來越多的問題。

LLM的發展

在談LLM之前,必須談到NLP,也就是自然語言處理(natural language processing,NLP),根據維基百科上的介紹:
自然語言處理,是人工智慧和語言學領域的分支學科,包括多方面和步驟,基本有認知、理解、生成等部分。
自然語言認知和理解是讓電腦把輸入的語言變成有意思的符號和關係,然後根據目的再處理。自然語言生成系統則是把計算機數據轉化為自然語言。
簡單來說,就是透過各種步驟,讓電腦能消化文字,同時產出符合人類說話邏輯的文字與句子。
備註:自然語言就是通常是指一種自然地隨文化演化的語言,比如中文、英文等,簡單來說就是人類在說的語言。
而近期LLM的發展,要從差不多是2010的機器學習開始,根據網路上資料敘述是:既然無法讓機器思考、也無法餵給它所有知識,那能不能退而求其次,把看到的現象告訴它就好?於是科學家僅告訴機器如何識字,然後餵給它大量的現象,讓機器自己判斷,於是神奇的事發生了,機器找出了自己的規則、然後學習,這就是現代機器學習的開端,讓人工智慧有了大躍進,而且不斷進化中。(引用自https://futurecity.cw.com.tw/article/743)
而後從機器學習中,發展出的深度學習,可以電腦從大量的資料中,更好的去從海量的資料中,發展成可應用模型的機會,而其中2014的AlphaGo,可稱為深度學習的代表應用之一。
經過數年的發展,這些透過深度學習產生的模型陸續出現,而其中與NLP相關的語言模型,由於其龐大的資料與參數,被稱為LLM,在去年2022,BLOOM模型出現,被稱為全球最大的語言模型,內有1,760億個參數,可理解的 46 種語言和 13 種程式語言,當初由法國超級電腦執行運算練 117 天才完成。

LLM的應用

LLM 在推動即時生成內容、文字摘要、客服聊天機器人與透過對話式人工智慧 (AI) 介面的問答等領域,卻能帶來莫大的好處。
以去年OpenAI推出的ChatGPT是目前最廣為人知的應用,該程式使用基於GPT-3.5架構的大型語言模型並透過強化學習進行訓練,ChatGPT使用基於人類回饋的強化學習進行訓練,這種方法透過人類干預以增強機器學習的效果,從而獲得更為逼真的結果。
ChatGPT強大的功能和產出,在一推出時就瘋迷了全世界,並帶來廣大的回響,其強大的學習與反饋能力,讓使用者可以更快的產出,不論是文字、或是程式。

未來發展

雖然目前只是一個推廣階段,但可預見的是,當ChatGPT更加成熟,或者有更多類似的應用提出時,將可以取代人類進行相關的產出,包含行銷文案、論文、程式碼等等
人類的生產力可預見的將透過這些應用,而拉升一個檔次。
為什麼會看到廣告
Domo的沙龍,各種文章的匯集地 日常、評論、政治、趨勢、時事、職場、工作、創作、小說等。 都是我寫作的內容! 歡迎加入,Domo的沙龍
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
久違的出差 今日到新竹出差,這次出差沒什麼,就是跟著前輩去平常合作的廠商公司拜訪一下,同時聊聊後續合作的部分。 然後預計下午到公司的新竹辦公室,去拜個碼頭,身為一個新人,雖然到了公司快四個月,但還是沒有看過新竹辦公室的同仁,需要讓大家認識一下。 結果最近都習慣晚睡,一個提早去睡,就不太容易睡著,也是
結論 我先寫結論,需要。 但這樣的結論或許太粗暴了,所以還是修飾一下說法。 身為一家想要持續在市場上存活、持續獲利的軟體公司,需要足夠多的工程師,但如果是一家得過且過,只求短時間存活的公司,那確實不用那麼多的工程師。 工程師的種類 在講為什麼之前,還是稍微介紹一下一家軟體公司通常會有哪些工程師。 但
前言 在日劇"我要準時下班"的第一集,某個配角在社交平台發了一則訊息,訊息寫著:「日本人明明那麼討厭遲到,但為什麼對下班時間這麼寬容」,其實這句話不只套到日本,在很多國家也是,當然台灣也是不例外。 準時上班,然後最好繼續加班....無嘗加班,這我想是很多老闆的心聲,但是,這對上班族就,不見得很友善了
辦公室是個很有趣的地方。 那裡聚集了跟自己是同一間公司,有機會或沒有機會一起做同個專案,但應該在某些時刻在走廊遇到,有機會點個頭或是冷漠的互相走開,臉很陌生,忽然看到應該叫不出來,但仔細想想後,在印象中,應該在某個地方有看過。 或是完全沒有印象。 認真工作的人 這類人,特徵就是非常準時,甚至還提早進
工作,不一定要在辦公室裡。 拜科技發展所賜,電腦早就不是什麼昂貴的物品,便宜的話一兩萬塊就能組一台堪用的文書桌上型電腦或是買台筆記型電腦,現在新到一家公司,我自己是資訊背景,通常都是到資訊公司,或是擔任資訊相關職位,以前都是配一台電腦,現在基本上都是配台筆電給你。 加上人手一支智慧型手機,還有搭配上
沒有效率的開會,是件痛苦的事情 開會是件技術活 不論在學校還是在社會上走跳,開會總是避不可了的事情,小至中午要吃什麼,大到跨好多部門一起討論議題,總是需要開會。 會開會,做事有效率,會議總能準時開始和結束,受人感激。 懂開會,會議上進退有度,懂禮貌,讓你走跳有風,令人喜歡。 但今天,我是來講講怎麼有
久違的出差 今日到新竹出差,這次出差沒什麼,就是跟著前輩去平常合作的廠商公司拜訪一下,同時聊聊後續合作的部分。 然後預計下午到公司的新竹辦公室,去拜個碼頭,身為一個新人,雖然到了公司快四個月,但還是沒有看過新竹辦公室的同仁,需要讓大家認識一下。 結果最近都習慣晚睡,一個提早去睡,就不太容易睡著,也是
結論 我先寫結論,需要。 但這樣的結論或許太粗暴了,所以還是修飾一下說法。 身為一家想要持續在市場上存活、持續獲利的軟體公司,需要足夠多的工程師,但如果是一家得過且過,只求短時間存活的公司,那確實不用那麼多的工程師。 工程師的種類 在講為什麼之前,還是稍微介紹一下一家軟體公司通常會有哪些工程師。 但
前言 在日劇"我要準時下班"的第一集,某個配角在社交平台發了一則訊息,訊息寫著:「日本人明明那麼討厭遲到,但為什麼對下班時間這麼寬容」,其實這句話不只套到日本,在很多國家也是,當然台灣也是不例外。 準時上班,然後最好繼續加班....無嘗加班,這我想是很多老闆的心聲,但是,這對上班族就,不見得很友善了
辦公室是個很有趣的地方。 那裡聚集了跟自己是同一間公司,有機會或沒有機會一起做同個專案,但應該在某些時刻在走廊遇到,有機會點個頭或是冷漠的互相走開,臉很陌生,忽然看到應該叫不出來,但仔細想想後,在印象中,應該在某個地方有看過。 或是完全沒有印象。 認真工作的人 這類人,特徵就是非常準時,甚至還提早進
工作,不一定要在辦公室裡。 拜科技發展所賜,電腦早就不是什麼昂貴的物品,便宜的話一兩萬塊就能組一台堪用的文書桌上型電腦或是買台筆記型電腦,現在新到一家公司,我自己是資訊背景,通常都是到資訊公司,或是擔任資訊相關職位,以前都是配一台電腦,現在基本上都是配台筆電給你。 加上人手一支智慧型手機,還有搭配上
沒有效率的開會,是件痛苦的事情 開會是件技術活 不論在學校還是在社會上走跳,開會總是避不可了的事情,小至中午要吃什麼,大到跨好多部門一起討論議題,總是需要開會。 會開會,做事有效率,會議總能準時開始和結束,受人感激。 懂開會,會議上進退有度,懂禮貌,讓你走跳有風,令人喜歡。 但今天,我是來講講怎麼有
你可能也想看
Google News 追蹤
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大
Thumbnail
本文介紹大型語言模型(LLM)的基礎概念和當前主流模型,包括OpenAI的ChatGPT、Google的Gemini、Meta的Llama、Anthropic的Claude和AI21 Labs的Jurassic。LLM具有強大的自然語言處理能力,LLM的發展將持續影響人類的交流和資訊處理方式。
大語言模型能夠生成文本,因此被認為是生成式人工智慧的一種形式。 人工智慧的學科任務,是製作機器,使其能執行需要人類智慧才能執行的任務,例如理解語言,便是模式,做出決策。 除了大語言模型,人工智慧也包含了深度學習以及機器學習。 機器學習的學科任務,是透過演算法來實踐AI。 特別
大語言模型是一種特殊的神經網路,設計來理解,生成與回應人類的文本。 大語言模型是使用大量文本數據訓練的深度神經網路,其訓練使用的文本數據甚至包括了整個網路公開的文本。 大語言模型的「大」,體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網
大語言模型,例如OpenAI提供的ChatGPT,是過去幾年發展的深度神經網路模型,開啟自然語言處理的新紀元。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
ChatGPT 是 OpenAI 開發的大型語言模型,以其強大的生成能力和對話能力而聞名。 ChatGPT 的訓練過程主要分為兩個階段:預訓練和微調。 微調使用了 RLHF(Reinforcement Learning from Human Feedback)技術,可以有效地提高模型生成內容的質量。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
對於熱衷於語言科技的你, 大語言模型(LLMs)在自然語言處理(NLP)領域的發展無疑是一個革命性的進展。 從傳統的規則系統到基於深度學習的方法, LLMs展現了在理解、生成和翻譯人類語言方面的巨大突破。 這不僅是技術上的飛躍, 更是開啟了新的應用和可能性。 下面將介紹這一變革帶來的三大