大語言模型淺析

大語言模型淺析

更新於 發佈於 閱讀時間約 4 分鐘

前言


時光回溯至2018年,自然語言處理(Natural Language Processing, NLP)領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。這種使用通用大模型架構想法類似於ImageNet分類預訓練如何幫助許多與電腦視覺相關的任務,例如影像辨識與分類。比視覺分類預訓練更好的是,大規模預訓練語言模型這種方法不需要標記資料來進行預訓練,因此能夠允許在電腦計算能力的極限內進行更大規模的訓練實驗。

另一方面NLP的訓練是基於詞語的存在性而非固定順序上下文。因此在兩個句子"我很享受這種東西文化融合的活動"和"我弄不清楚這種東西的用法"中,兩個"東西"詞語代表完全不同的意思,但它們仍然會共享相同的詞嵌入向量。儘管如此,詞嵌入在早期的解決方案中用是將它們用作現有特定任務模型的額外特徵,這樣的作法改進的程度是有限的。在這篇文章中,我們將透過幾種現存的方法,討論這些方法如何使嵌入依賴於上下文,並使它們更容易地以通用形式應用於各種任務。


GPT

OpenAI GPT,全稱為生成式預訓練Transformer(Generative Pre-training Transformer)(Radford等人,2018年),通過在大量語料庫上進行訓練,將無監督語言模型擴展到更大規模。GPT是一個多層Transformer解碼器,對所有終端任務微調相同的基礎模型。


BERT

BERT,全稱為來自Transformers的雙向編碼器表示(Bidirectional Encoder Representations from Transformers)(Devlin等人,2019年),是GPT的衍生演算法,其在通用資料集上訓練一個大型語言模型,然後在特定任務上進行微調,而無需定制網絡架構。與GPT相比,BERT最大的區別和改進是使訓練變為雙向的,模型學習預測左右兩側的上下文。該論文模型的雙向性是一個重要的新貢獻。



CoVe

CoVe(McCann等人,2017年),全稱為上下文詞向量(Contextual Word Vectors),是一種由注意力機制的序列到序列機器翻譯模型中的編碼器學習的詞嵌入。與這裡介紹的傳統詞嵌入不同,CoVe詞表示是整個輸入句子的函數。


NMT

這裡的神經機器翻譯 (Neural Machine Translation, NMT) 模型由一個標準的、雙層、雙向LSTM編碼器和一個帶注意力機制的雙層單向LSTM解碼器組成。它在英文-德文翻譯任務上進行預訓練。編碼器學習和優化英語詞的嵌入向量,以便將它們翻譯成德語。基於編碼器應該在將詞轉換為另一種語言之前捕捉高級語義和語法含義,編碼器的輸出被用來為各種語言應用任務提供上下文的詞嵌入。



Reference

  1. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
  2. https://arxiv.org/abs/1811.08883
avatar-img
Kiki的沙龍
1會員
40內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言
avatar-img
留言分享你的想法!
Kiki的沙龍 的其他內容
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!
Meta 推出了開源大型語言模型 Llama。這一代特別引人注目,因為 80 億參數的模型小到可以在家用電腦上運行,效能卻不輸比它大十倍的模型。在許多應用場景下,它給出的回應品質已經能媲美 GPT-4。在這篇文章裡,我會說明自架 Llama 3 的優缺點,並提供設定方式與資源,讓讀者也能輕鬆動手。
這份實務指引旨在協助產品和工程團隊入門 大型語言模型(LLM)驅動的人工智慧代理人建構,它定義了代理的核心概念,例如獨立執行任務和利用 LLM 管理工作流程決策。本文闡述了何時應考慮建立代理,特別是在傳統自動化方法受限的複雜情境,並深入探討了代理設計的基礎要素,包括模型選擇、工具整合及指令設置。
這篇文章將搭配簡單的範例,介紹最近推出的 Docker Model Runner。內容比較隨意粗略,希望能成為讓讀者了解這項工具的契機!