vocus logo

方格子 vocus

語言模型 (Language Model, LM)

更新 發佈閱讀 5 分鐘

語言模型 (Language Model, LM) 是一個廣泛的術語,指的是用於預測文本序列中下一個詞語(或字符)概率的計算模型。隨著深度學習的發展,出現了許多不同架構和訓練方法的語言模型。以下是一些常見的語言模型及其分類:

基於傳統方法的語言模型:

  • n-gram 模型: 這是一種早期的統計語言模型,它基於序列中前 n-1 個詞語來預測下一個詞語的概率。例如,一個 trigram 模型會基於前兩個詞語來預測第三個詞語。雖然簡單,但對於捕捉局部上下文信息仍然有效。

基於神經網路的語言模型 (Neural Language Models):

  • 前饋神經網路語言模型 (Feedforward Neural Network Language Model): 這類模型使用前饋神經網路來學習詞語的嵌入表示,並根據前幾個詞語的嵌入來預測下一個詞語。
  • 遞迴神經網路語言模型 (Recurrent Neural Network Language Model, RNN LM): 這類模型使用 RNN(包括 LSTM 和 GRU)來處理序列數據,能夠捕捉更長距離的依賴關係。
    • 標準 RNN LM: 使用基本的 RNN 架構。 LSTM LM: 使用長短期記憶網路 (LSTM) 來解決梯度消失問題,更好地捕捉長期依賴。 GRU LM: 使用門控循環單元 (GRU),結構比 LSTM 更簡潔,也能有效捕捉長期依賴。
  • Transformer 語言模型: 這類模型基於 Transformer 架構,完全依賴注意力機制來建模詞語之間的關係,具有並行計算能力和捕捉長距離依賴的優勢。
    • 自回歸 (Autoregressive) 模型 (Decoder-only): 這類模型(如 GPT 系列)只使用 Transformer 的解碼器部分,訓練目標是預測序列中的下一個詞語。它們非常擅長文本生成。 自編碼 (Autoencoding) 模型 (Encoder-only): 這類模型(如 BERT)只使用 Transformer 的編碼器部分,訓練目標是理解文本的上下文表示,例如通過掩碼語言模型 (MLM) 等任務。它們更擅長文本理解任務。 編碼器-解碼器 (Encoder-Decoder) 模型: 這類模型(如 T5、BART)同時使用 Transformer 的編碼器和解碼器,適用於序列到序列的任務,例如機器翻譯、文本摘要等。

一些著名的語言模型實例:

  • GPT 系列 (Generative Pre-trained Transformer): 由 OpenAI 開發,以強大的文本生成能力著稱,包括 GPT-1、GPT-2、GPT-3、GPT-3.5 (如 ChatGPT 的基礎) 和 GPT-4 等。它們是自回歸模型。
  • BERT (Bidirectional Encoder Representations from Transformers): 由 Google 開發,以其雙向上下文表示能力在多個 NLP 理解任務上取得了突破。它是自編碼模型。
  • RoBERTa (A Robustly Optimized BERT Pretraining Approach): 一種改進的 BERT 訓練方法,通常在許多任務上優於原始 BERT。
  • ALBERT (A Lite BERT for Self-supervised Learning of Language Representations): BERT 的輕量級版本,旨在減少模型大小和提高訓練速度。
  • T5 (Text-to-Text Transfer Transformer): 由 Google 開發,將所有 NLP 任務都視為文本到文本的生成問題,使用了編碼器-解碼器架構。
  • BART (Bidirectional and Auto-Regressive Transformer): 由 Facebook 開發,結合了 BERT 的雙向編碼器和 GPT 的自回歸解碼器,適用於多種生成和理解任務。
  • Llama 系列 (Large Language Model Meta AI): 由 Meta AI 開發和開源的大型語言模型系列。
  • PaLM (Pathways Language Model): 由 Google 開發的大型語言模型。
  • 有很多針對特定任務或領域優化的語言模型。

總結來說,語言模型的種類繁多,從基於簡單統計方法的 n-gram 模型,到基於複雜神經網路架構(如 RNN 和 Transformer)的現代大型語言模型。不同類型的語言模型在架構、訓練方法和擅長的任務方面有所不同,研究人員和開發者會根據具體的需求選擇合適的模型。

留言
avatar-img
郝信華 iPAS AI應用規劃師 學習筆記
44會員
572內容數
現職 : 富邦建設資訊副理 證照:經濟部 iPAS AI應用規劃師 初級+中級(數據分析) AWS AIF-C01 AWS CLF-C02 Microsoft AI-900 其他:富邦美術館志工
2025/05/24
自然語言處理 (NLP) 中的偏見指的是 NLP 模型和系統在處理文本時,系統性地傾向於某些群體或觀點,而對其他群體或觀點產生不公平或不準確的表示。這些偏見可能會導致 NLP 系統產生帶有歧視性、刻板印象或不公平的輸出。 NLP 中偏見的常見類型: 性別偏見 (Gender Bias): 模型在
2025/05/24
自然語言處理 (NLP) 中的偏見指的是 NLP 模型和系統在處理文本時,系統性地傾向於某些群體或觀點,而對其他群體或觀點產生不公平或不準確的表示。這些偏見可能會導致 NLP 系統產生帶有歧視性、刻板印象或不公平的輸出。 NLP 中偏見的常見類型: 性別偏見 (Gender Bias): 模型在
2025/05/24
「檢索增強生成 (Retrieval-Augmented Generation, RAG)」是一種結合了信息檢索 (Retrieval) 和文本生成 (Generation) 的框架,旨在通過從外部知識庫中檢索相關信息,來增強大型語言模型 (LLMs) 生成文本的質量、準確性和知識覆蓋範圍。 簡單
2025/05/24
「檢索增強生成 (Retrieval-Augmented Generation, RAG)」是一種結合了信息檢索 (Retrieval) 和文本生成 (Generation) 的框架,旨在通過從外部知識庫中檢索相關信息,來增強大型語言模型 (LLMs) 生成文本的質量、準確性和知識覆蓋範圍。 簡單
2025/05/24
「提示工程 (Prompt Engineering)」是指設計和優化輸入給大型語言模型 (LLMs) 的提示 (prompts) 的過程,目的是引導模型產生期望的、高質量的輸出。一個好的提示可以顯著影響 LLM 的性能,使其能夠更準確地理解指令、提供更相關的回應、減少幻覺,並更好地執行各種任務。
2025/05/24
「提示工程 (Prompt Engineering)」是指設計和優化輸入給大型語言模型 (LLMs) 的提示 (prompts) 的過程,目的是引導模型產生期望的、高質量的輸出。一個好的提示可以顯著影響 LLM 的性能,使其能夠更準確地理解指令、提供更相關的回應、減少幻覺,並更好地執行各種任務。
看更多
你可能也想看
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 從 AI說書 - 從0開始 - 82 到 AI說書 - 從0開始 - 85 的說明,有一個很重要的結論:最適合您的模型不一定是排行榜上最好的模型,您需要學習 NLP 評
Thumbnail
隨著人工智慧和大型語言模型(LLMs)的快速發展,AI Singapore與Google Research合作推出的SEALD計畫旨在收集和加強東南亞九種語言的多語言數據集,提升這些語言大型語言模型的文化意識和應用能力,推動東南亞語言和文化敏感性的LLMs的發展。
Thumbnail
隨著人工智慧和大型語言模型(LLMs)的快速發展,AI Singapore與Google Research合作推出的SEALD計畫旨在收集和加強東南亞九種語言的多語言數據集,提升這些語言大型語言模型的文化意識和應用能力,推動東南亞語言和文化敏感性的LLMs的發展。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 我們已經在AI說書 - 從0開始 - 17中,介紹了大型語言模型 (LLM)世界裡面常用到的Token,現在我們來談談OpenAI的GPT模型如何利用Inference
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
這是一場修復文化與重建精神的儀式,觀眾不需要完全看懂《遊林驚夢:巧遇Hagay》,但你能感受心與土地團聚的渴望,也不急著在此處釐清或定義什麼,但你的在場感受,就是一條線索,關於如何找著自己的路徑、自己的聲音。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」,然而,它們並非真正理解語言。除了在上篇介紹的技巧可以協助我們在使用 LLM 時給予指示之外,今天我們會介紹使用 LLM 的框架。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大型語言模型(Large Language Model,LLM)是一項人工智慧技術,其目的在於理解和生成人類語言,可將其想像成一種高階的「文字預測機器」。 Prompt Pattern 是給予LLM的指示,並確保生成的輸出擁有特定的品質(和數量)。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
大型語言模型(LLM)是基於深度學習的自然語言處理模型,而多模態模型(LMM)能處理多種資料型態。這些模型將對未來帶來重大改變。LLM 專注於理解和生成自然語言,LMM 能夠處理跨模態的內容,並整合多種資料的能力,有望成為未來趨勢。
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
背景:從冷門配角到市場主線,算力與電力被重新定價   小P從2008進入股市,每一個時期的投資亮點都不同,記得2009蘋果手機剛上市,當時蘋果只要在媒體上提到哪一間供應鏈,隔天股價就有驚人的表現,當時光學鏡頭非常熱門,因為手機第一次搭上鏡頭可以拍照,也造就傳統相機廠的殞落,如今手機已經全面普及,題
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
大語言模型(LLMs)對於任何對人工智能和自然語言處理感興趣的人來說都是一個令人興奮的領域。 這類模型,如GPT-4, 透過其龐大的數據集和複雜的參數設置, 提供了前所未有的語言理解和生成能力。 那麼,究竟是什麼讓這些模型「大」得如此不同呢?
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
Thumbnail
在AI時代中,GPT技術正在改變我們的生活。然而,SLM(小型語言模型)也開始受到關注,具有更高的效率、更低的資源消耗和更快的響應速度。這篇文章將討論LLM和SLM的比較、SLM的應用場景以及未來的發展趨勢。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News