LLM 004｜創建大語言模型需要哪兩個關鍵階段？

王啟樺

2024/04/26閱讀時間約 1 分鐘

從頭開始寫大語言模型的程式碼，

是最好理解大語言模型的機制與限制的方風。

從頭開始寫大語言模型的程式碼，可以幫助我們得到預訓練與微調整開源大語言模型架構所需要的知識，並應用到特定領域的數據及以及任務。

客製化大語言模型一般來說比起通用大語言模型有更好的表現。

一個具體的例子是BloombergGPT是專門於金融的大語言模型。

其他也有專門做醫療問答的大語言模型。

創造一個大語言模型包含「預訓練」與「微調整」兩個階段。

預訓練階段是在大量多種的數據集訓練大語言模型去開發語言理解。

這種預訓練模型作為基礎資源，可進行近一步的微調整。

微調整是在一個更狹義的數據集，對特定的任務與領域做額外改良的過程。

創造大語言模型的第一步，是在巨大的文本語料庫來訓練。

這種文本又稱為「原始文本 (Raw Text)」，表達數據只是一般的文本，沒有任何標籤的資訊。

大語言模型的第一訓練階段是「預訓練」，構造基礎模型，例如GPT-3模型。

基礎模型能夠做「文本補齊 Text Completion」，也就是將寫到一半的句子補成完整句子的能力。

大語言模型還有有限的「小樣本 Few-Shot」能力，也就是使用少量的樣本，大語言模型就能學習做新的任務。

這個能力的秘密，就在對不同的任務使用不同的Transformers。

「微調整 Finetuning」則是將預訓練的大語言模型進一步使用有標籤的數據來訓練。

在微調整大語言模型的任務中，兩類最受歡迎的是「指令微調 Instruction-Finetuning」與為了分類任務而做微調整。

在指令微調任務中，有貼標籤的數據集有一對對的指令與答案，例如給一段文本以及正確翻譯的文本。

在分類微調中，有貼標籤的數據集是一對對文本與類別標籤，例如一封郵件與垃圾信/非垃圾信的標籤。

367會員

1.2KContent count

Outline as Content

留言0

查看全部

發表第一個留言支持創作者！

王啟樺的沙龍的其他內容

LLM 003｜人工智慧如何從數據中學習？

大語言模型能夠生成文本，因此被認為是生成式人工智慧的一種形式。人工智慧的學科任務，是製作機器，使其能執行需要人類智慧才能執行的任務，例如理解語言，便是模式，做出決策。除了大語言模型，人工智慧也包含了深度學習以及機器學習。機器學習的學科任務，是透過演算法來實踐AI。特別

#大語言模型 #ChatGPT #人工智慧

LLM 002｜大語言模型中的「大」是如何幫助預測下一個字的？

大語言模型是一種特殊的神經網路，設計來理解，生成與回應人類的文本。大語言模型是使用大量文本數據訓練的深度神經網路，其訓練使用的文本數據甚至包括了整個網路公開的文本。大語言模型的「大」，體現於模型的參數個數以及其使用的訓練數據集。如此大的模型可以有百億甚至千億的參數。這些參數都是神經網

#大語言模型

LLM 001｜大語言模型如何革新傳統的自然語言處理任務？

大語言模型，例如OpenAI提供的ChatGPT，是過去幾年發展的深度神經網路模型，開啟自然語言處理的新紀元。

#大語言模型 #ChatGPT

LLM 003｜人工智慧如何從數據中學習？

#大語言模型 #ChatGPT #人工智慧

LLM 002｜大語言模型中的「大」是如何幫助預測下一個字的？

#大語言模型

LLM 001｜大語言模型如何革新傳統的自然語言處理任務？

大語言模型，例如OpenAI提供的ChatGPT，是過去幾年發展的深度神經網路模型，開啟自然語言處理的新紀元。

#大語言模型 #ChatGPT

你可能也想看

台中散戶の交易日常

2024/09/08

操盤手の交易週報與展望(Sep.W2)

1.加權指數與櫃買指數週五的加權指數在非農就業數據開出來後，雖稍微低於預期，但指數仍向上噴出，在美股開盤後於21500形成一個爆量假突破後急轉直下，就一路收至最低。台股方面走勢需觀察週一在斷頭潮出現後，週二或週三開始有無買單進場支撐，在沒有明確的反轉訊號形成前，小夥伴盡量不要貿然抄底，或是追空

美股韭菜王

2024/09/18

Fed 9月會議：傳達「不想要落後給曲線」的正向信號，著手管理市場的衰退預期

重點摘要： 1.9 月降息 2 碼、進一步暗示年內還有 50 bp 降息 2.SEP 上修失業率預期，但快速的降息速率將有助失業率觸頂 3.未來幾個月經濟數據將繼續轉弱，經濟復甦的時點或是 1Q25 季底附近

#聯準會 #Fed #降息

方格子 vocus 官方沙龍

2024/08/27

「相簿裡最捨不得刪的 N 張照片！」：完成任務抽富士即可拍！

近期的「貼文發佈流程 & 版型大更新」功能大家使用了嗎？新版式整體視覺上「更加凸顯圖片」，為了搭配這次的更新，我們推出首次貼文策展 ❤️ 使用貼文功能並完成這次的指定任務，還有機會獲得富士即可拍，讓你的美好回憶都可以用即可拍珍藏！

#相簿裡最捨不得刪的照片

Everything ✨

2024/02/24

AI 模型的進化｜從大型語言模型LLM 到多模態模型LMM

大型語言模型(LLM)是基於深度學習的自然語言處理模型，而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言，LMM 能夠處理跨模態的內容，並整合多種資料的能力，有望成為未來趨勢。

#ChatGPT #AI #人工智慧

私大教慾所 (私人大學教學慾望研究所) by mr gary

2023/12/31

66個大型語言模型LLM經典論文

Karen的沙龍

2023/12/18

將RAG與Semantic Search融入LLM：提升準確性與效率

前言前幾篇分享了 IBM Watsonx.ai 平台，以及在平台上使用 LLM 完成客戶體驗分析、與LLM串連處理較複雜的問題。在這一篇中，我們想來嘗試使用檢索增強生成（RAG）的技術，RAG 通過整合外部數據來增強基礎模型的回答能力，這不僅能解決模型訓練數據的局限性問題，還可以提供更精準和相關

#LLM #RAG #huggingface

Karen的沙龍

2023/12/18

LLM 串連：利用不同模型的優勢完成更複雜和多樣的任務

前言在先前的文章中，我們探討了 IBM Watsonx 在客戶滿意度分析中的應用。今天，我們將利用 Google 的兩款大型語言模型（LLM）— flan-ul2 和 flan-t5-xxl，展示它們如何串聯起來生成關於特定主題的隨機問題和回答。在這篇文章中，將使用 SimpleSequen

#模型 #LLM #IBM

Karen的沙龍

2023/12/17

利用 IBM Watsonx.ai 與 Python SDK :應用 LLM 在客戶滿意度分析

前言在上一篇文章中，分享了第一次使用 IBM Watsonx 的經歷，以及我對 Prompt lab 功能的初步探索。繼續這個話題，本文將探討 Watsonx 平台對 Python SDK 的支持，以及實作幾個 LLM 的應用，這一特性為開發者提供了極大的便利，使得在此平台上進行開發和應用大型語

#模型 #IBM #顧客滿意度分析

Yi-Ling Chen的沙龍

2023/12/07

如何攻擊 LLM (ChatGPT) ?

ChatGPT 在去年十一月橫空出世，每個人都驚探於它的能力，AI 也從遙遠的科技成為很多人每天都在使用的工具，但是自從 AI 成為最熱門的話題之後，始終有一群人一直大聲疾呼，我們需要小心發展 AI，另一方面則要提防 AI 被壞人利用，在影片中，Andrej Karpathy 介紹了三種已知的安全漏

#AI #ChatGPT #LLM

Karen的沙龍

2023/12/03