大語言模型淺析

更新於 2024/12/07閱讀時間約 4 分鐘

前言


時光回溯至2018年,自然語言處理(Natural Language Processing, NLP)領域開始有了驚人的進展。像OpenAI GPT和BERT這樣的大規模預訓練語言模型在解決各種不同的任務上取得了優異的表現。這種使用通用大模型架構想法類似於ImageNet分類預訓練如何幫助許多與電腦視覺相關的任務,例如影像辨識與分類。比視覺分類預訓練更好的是,大規模預訓練語言模型這種方法不需要標記資料來進行預訓練,因此能夠允許在電腦計算能力的極限內進行更大規模的訓練實驗。

另一方面NLP的訓練是基於詞語的存在性而非固定順序上下文。因此在兩個句子"我很享受這種東西文化融合的活動"和"我弄不清楚這種東西的用法"中,兩個"東西"詞語代表完全不同的意思,但它們仍然會共享相同的詞嵌入向量。儘管如此,詞嵌入在早期的解決方案中用是將它們用作現有特定任務模型的額外特徵,這樣的作法改進的程度是有限的。在這篇文章中,我們將透過幾種現存的方法,討論這些方法如何使嵌入依賴於上下文,並使它們更容易地以通用形式應用於各種任務。


GPT

OpenAI GPT,全稱為生成式預訓練Transformer(Generative Pre-training Transformer)(Radford等人,2018年),通過在大量語料庫上進行訓練,將無監督語言模型擴展到更大規模。GPT是一個多層Transformer解碼器,對所有終端任務微調相同的基礎模型。


BERT

BERT,全稱為來自Transformers的雙向編碼器表示(Bidirectional Encoder Representations from Transformers)(Devlin等人,2019年),是GPT的衍生演算法,其在通用資料集上訓練一個大型語言模型,然後在特定任務上進行微調,而無需定制網絡架構。與GPT相比,BERT最大的區別和改進是使訓練變為雙向的,模型學習預測左右兩側的上下文。該論文模型的雙向性是一個重要的新貢獻。



CoVe

CoVe(McCann等人,2017年),全稱為上下文詞向量(Contextual Word Vectors),是一種由注意力機制的序列到序列機器翻譯模型中的編碼器學習的詞嵌入。與這裡介紹的傳統詞嵌入不同,CoVe詞表示是整個輸入句子的函數。


NMT

這裡的神經機器翻譯 (Neural Machine Translation, NMT) 模型由一個標準的、雙層、雙向LSTM編碼器和一個帶注意力機制的雙層單向LSTM解碼器組成。它在英文-德文翻譯任務上進行預訓練。編碼器學習和優化英語詞的嵌入向量,以便將它們翻譯成德語。基於編碼器應該在將詞轉換為另一種語言之前捕捉高級語義和語法含義,編碼器的輸出被用來為各種語言應用任務提供上下文的詞嵌入。



Reference

  1. https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
  2. https://arxiv.org/abs/1811.08883
avatar-img
0會員
30內容數
心繫正體中文的科學家,立志使用正體中文撰寫文章。 此沙龍預計涵蓋各項資訊科技知識分享與學習心得
留言0
查看全部
avatar-img
發表第一個留言支持創作者!
風清揚的沙龍 的其他內容
大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。
以流為基礎的深度生成模型藉助正規化流這一強大的統計工具來解決密度估計這個困難問題。對 p(x) 的良好估計使得有效完成許多下游任務成為可能:取樣未觀察到但真實的新數據點(數據生成)、預測未來事件的稀有程度(密度估計)、推斷潛在變量、填補不完整的數據樣本等。
擴散模型受非均衡熱力學啟發。非均衡熱力學定義了一個擴散步驟的馬可夫鏈,逐步向資料添加隨機資訊,然後學習如何逆轉擴散過程,從隨機資訊中建構所需的樣本資料。與變分自編碼器(VAE)或以流為基礎的模型不同,擴散模型是通過固定程序學習的,且其潛在變量具有高維度(與原始資料相同)。
深度學習是什麼? 簡單來說,深度學習是大型且多層的人工神經網路。我們可以想像神經網路("Neural Nnetwork, NN")是一種有向無環圖,此圖可拆分成三個部分來看: 1. 輸入層接收信號向量;2. 一個或多個隱藏層處理前一層的輸出; 3. 輸出層統合之前所有隱藏層的處理結果。神經網路的初
3GPP官方網站和工具 這些是獲取3GPP(第三代合作夥伴計劃)最新資訊的主要來源。對於研究人員和業界專業人士來說,3GPP官方資訊可供理解、實作和測試3GPP標準。另一方面,對於進行移動通訊研究的學者和學生來說,這些資源是深入了解最新技術標準和發展趨勢的重要途徑。
大型語言模型(Large Language Model, LLM)中的幻覺通常指模型產生不真實、錯誤、不一致或無意義的內容。
以流為基礎的深度生成模型藉助正規化流這一強大的統計工具來解決密度估計這個困難問題。對 p(x) 的良好估計使得有效完成許多下游任務成為可能:取樣未觀察到但真實的新數據點(數據生成)、預測未來事件的稀有程度(密度估計)、推斷潛在變量、填補不完整的數據樣本等。
擴散模型受非均衡熱力學啟發。非均衡熱力學定義了一個擴散步驟的馬可夫鏈,逐步向資料添加隨機資訊,然後學習如何逆轉擴散過程,從隨機資訊中建構所需的樣本資料。與變分自編碼器(VAE)或以流為基礎的模型不同,擴散模型是通過固定程序學習的,且其潛在變量具有高維度(與原始資料相同)。
深度學習是什麼? 簡單來說,深度學習是大型且多層的人工神經網路。我們可以想像神經網路("Neural Nnetwork, NN")是一種有向無環圖,此圖可拆分成三個部分來看: 1. 輸入層接收信號向量;2. 一個或多個隱藏層處理前一層的輸出; 3. 輸出層統合之前所有隱藏層的處理結果。神經網路的初
3GPP官方網站和工具 這些是獲取3GPP(第三代合作夥伴計劃)最新資訊的主要來源。對於研究人員和業界專業人士來說,3GPP官方資訊可供理解、實作和測試3GPP標準。另一方面,對於進行移動通訊研究的學者和學生來說,這些資源是深入了解最新技術標準和發展趨勢的重要途徑。
你可能也想看
Google News 追蹤
Thumbnail
我很鼓勵投資人不要只投資台股,對股市有一點熟悉度後,建議範圍擴況大到美股,甚至是投資全球。因為台股僅是單一國家/市場,如果能將資產投資到其他國家,風險會更分散,機會也更多,特別是美國股市。 美股會很難懂嗎?我相信你認識的美國企業可能會比台灣企業多,我從標普500成分股前15大企業裡隨便抓十
Thumbnail
投資新手大多從身邊市場開始著手,選擇台股市場入門,單筆投資或台股定期定額投資,隨著經驗累積,進入美股市場也是好選擇,這篇文章帶你前進美股投資,證券開戶選擇國內券商複委託,使用美股定期定額投資,並以國泰 CUBE App為例說明。 內容目錄: 1.一站式開戶:以國泰世華 CUBE App 為例
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。
Thumbnail
我很鼓勵投資人不要只投資台股,對股市有一點熟悉度後,建議範圍擴況大到美股,甚至是投資全球。因為台股僅是單一國家/市場,如果能將資產投資到其他國家,風險會更分散,機會也更多,特別是美國股市。 美股會很難懂嗎?我相信你認識的美國企業可能會比台灣企業多,我從標普500成分股前15大企業裡隨便抓十
Thumbnail
投資新手大多從身邊市場開始著手,選擇台股市場入門,單筆投資或台股定期定額投資,隨著經驗累積,進入美股市場也是好選擇,這篇文章帶你前進美股投資,證券開戶選擇國內券商複委託,使用美股定期定額投資,並以國泰 CUBE App為例說明。 內容目錄: 1.一站式開戶:以國泰世華 CUBE App 為例
Thumbnail
這是張老師的第三本書,我想前二本應該也有很多朋友們都有讀過,我想絕對是受益良多,而這次在書名上就直接點出,著重在從投資的角度來切入
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
在當今快速發展的技術時代,人工智能 Artificial Intelligence 和機器學習 Machine Learning 已成為推動業務創新和增長的重要力量。從改善客戶服務到優化運營流程,AI和ML的應用範圍日益廣泛,為企業創造出前所未有的機會。企業又可如何利用AI和ML提升業務呢?
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
AI的世界充滿了創新和潛力,涵蓋了許多領域,包括但不限於機器學習,自然語言處理、電腦視覺和機器人技術。AI對人類社會的影響是複雜而多層面的,既帶來了巨大的機遇,也提出了新的挑戰。社會需要在技術發展和倫理規範之間找到平衡,確保AI技術的應用能夠真正造福人類。
Thumbnail
據美聯社報導,OpenGPT.com 宣佈推出 OpenGPTs。用戶只需要發佈一個OpenGPTs,便能夠整合所有主要的 AI 引擎包括ChatGPT-4o, Google Imagen, Gemini Pro, 以及Claude 3.5等。
https://www.youtube.com/watch?v=wjZofJX0v4M 這是我看過最好的AI科普影片了;現在流行的GPT使用的大語言模型 (large language model, LLM), 是把每一個單字都當作一個高維度向量 影片中GPT3共儲存50257個英文單字, 每
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
2023年底以來,語言模型發展面臨著價格上漲、更新減緩和公司內部變動的局面,這些變化似乎意味著語言模型的發展受到了人為的控制和限制。