大語言模型淺析

更新於 2024/12/07發佈於 2024/12/07閱讀時間約 4 分鐘

前言

時光回溯至2018年，自然語言處理（Natural Language Processing, NLP）領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。這種使用通用大模型架構想法類似於ImageNet分類預訓練如何幫助許多與電腦視覺相關的任務，例如影像辨識與分類。比視覺分類預訓練更好的是，大規模預訓練語言模型這種方法不需要標記資料來進行預訓練，因此能夠允許在電腦計算能力的極限內進行更大規模的訓練實驗。

另一方面NLP的訓練是基於詞語的存在性而非固定順序上下文。因此在兩個句子"我很享受這種東西文化融合的活動"和"我弄不清楚這種東西的用法"中，兩個"東西"詞語代表完全不同的意思，但它們仍然會共享相同的詞嵌入向量。儘管如此，詞嵌入在早期的解決方案中用是將它們用作現有特定任務模型的額外特徵，這樣的作法改進的程度是有限的。在這篇文章中，我們將透過幾種現存的方法，討論這些方法如何使嵌入依賴於上下文，並使它們更容易地以通用形式應用於各種任務。

GPT

OpenAI GPT，全稱為生成式預訓練Transformer（Generative Pre-training Transformer）（Radford等人，2018年），通過在大量語料庫上進行訓練，將無監督語言模型擴展到更大規模。GPT是一個多層Transformer解碼器，對所有終端任務微調相同的基礎模型。

BERT

BERT，全稱為來自Transformers的雙向編碼器表示（Bidirectional Encoder Representations from Transformers）（Devlin等人，2019年），是GPT的衍生演算法，其在通用資料集上訓練一個大型語言模型，然後在特定任務上進行微調，而無需定制網絡架構。與GPT相比，BERT最大的區別和改進是使訓練變為雙向的，模型學習預測左右兩側的上下文。該論文模型的雙向性是一個重要的新貢獻。

CoVe

CoVe（McCann等人，2017年），全稱為上下文詞向量（Contextual Word Vectors），是一種由注意力機制的序列到序列機器翻譯模型中的編碼器學習的詞嵌入。與這裡介紹的傳統詞嵌入不同，CoVe詞表示是整個輸入句子的函數。

NMT

這裡的神經機器翻譯 (Neural Machine Translation, NMT) 模型由一個標準的、雙層、雙向LSTM編碼器和一個帶注意力機制的雙層單向LSTM解碼器組成。它在英文-德文翻譯任務上進行預訓練。編碼器學習和優化英語詞的嵌入向量，以便將它們翻譯成德語。基於編碼器應該在將詞轉換為另一種語言之前捕捉高級語義和語法含義，編碼器的輸出被用來為各種語言應用任務提供上下文的詞嵌入。

Reference

https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
https://arxiv.org/abs/1811.08883

留言

留言分享你的想法！

Kiki的沙龍

3會員

45內容數

心繫正體中文的科學家，立志使用正體中文撰寫文章。此沙龍預計涵蓋各項資訊科技知識分享與學習心得

Kiki的沙龍的其他內容

2025/04/27

自己在家組Ollama大語言模型伺服器

Meta 推出了開源大型語言模型 Llama。這一代特別引人注目，因為 80 億參數的模型小到可以在家用電腦上運行，效能卻不輸比它大十倍的模型。在許多應用場景下，它給出的回應品質已經能媲美 GPT-4。在這篇文章裡，我會說明自架 Llama 3 的優缺點，並提供設定方式與資源，讓讀者也能輕鬆動手。

2025/04/27

自己在家組Ollama大語言模型伺服器

2025/04/20

建立人工智慧代理人實務指引

這份實務指引旨在協助產品和工程團隊入門大型語言模型（LLM）驅動的人工智慧代理人建構，它定義了代理的核心概念，例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理，特別是在傳統自動化方法受限的複雜情境，並深入探討了代理設計的基礎要素，包括模型選擇、工具整合及指令設置。

2025/04/20

建立人工智慧代理人實務指引

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

2025/04/06

用Docker Model Runner 輕鬆在本地執行 LLM

這篇文章將搭配簡單的範例，介紹最近推出的 Docker Model Runner。內容比較隨意粗略，希望能成為讓讀者了解這項工具的契機！

看更多

你可能也想看

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

2025 vocus 推出最受矚目的活動之一——《開箱你的美好生活》，我們跟著創作者一起「開箱」各種故事、景點、餐廳、超值好物⋯⋯甚至那些讓人會心一笑的生活小廢物；這次活動不僅送出了許多獎勵，也反映了「內容有價」——創作不只是分享、紀錄，也能用各種不同形式變現、帶來實際收入。

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

2025 下半場，蝦皮分潤計畫 x vocus 陪你回顧上半年的美好開箱！

#vocusforBusiness#蝦皮#蝦皮分潤

2025/08/25

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

嗨！歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台，並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈！「創作至上」是我們的核心價值，我們致力於透過平台功能與服務，賦予創作者更多的可能。 vocus 平台匯聚了

#vocus#徵才#社群行銷

2025/08/11

方格子 vocus 官方沙龍

徵才：社群與內容行銷專員 (Community & Marketing Specialist)

#vocus#徵才#社群行銷

2025/08/11

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

在當今快速變化的數位時代，企業面臨著前所未有的數據處理需求。為了應對這些挑戰，企業紛紛建立自己的大型語言模型（LLM），利用大量數據進行訓練，讓模型能夠理解並生成自然語言，從而實現人機協作，優化業務流程並提升客戶體驗。

#廣告雜誌#專欄#cacaFly

2024/07/31

廣告雜誌

從資料清洗到 RAG，大型語言模型的必需品，做出專屬企業的 AI 知識庫！

#廣告雜誌#專欄#cacaFly

2024/07/31

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

林的怪東西集中地

人工智慧與機器學習

本文介紹了人工智慧（AI）及機器學習（ML）的基本概念和關係，探討了數據在機器學習中的重要性，以及深度學習和生成式人工智慧的應用。

#學習#人工智慧#數據

2024/07/30

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

在當今快速發展的技術時代，人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程，AI和ML的應用範圍日益廣泛，為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢？

#AI#ML#人工智能

2024/07/26

熙哥生意之道

人工智能AI和機器學習ML：業務升級的新動能

#AI#ML#人工智能

2024/07/26

Darren的沙龍

解密 AI 與資料科學 (二) : AI 的類型與實戰場景

本文要探討AI的任務與實戰場景。AI技術已深入生活各層面，從違約預測到都市交通管理。AI任務主要有三類：數值型資料處理、自然語言處理（NLP）和電腦影像辨識。時間序列資料和強化學習方法（如AlphaGo）也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化，了解這些基礎有助選擇適合研究方向

#ChatGPT#AlphaGo#人工智慧

2024/07/19