2024-02-24|閱讀時間 ‧ 約 22 分鐘

AI 模型的進化|從 大型語言模型LLM 到 多模態模型LMM

隨著 ChatGPT 和 Midjourney受到大眾的關注,最近與 AI 相關的名詞變成了 buzzword,前陣子常常看到文章討論深度學習Deep Learning、生成式AI Generative AI,到近期對大型語言模型 LLM、多模態模型 LMM 的討論,接下來將深入討論這兩個模型究竟是什麼?對未來會帶來什麼改變?


  • 大型語言模型(Large Language Models, LLM)
    基於深度學習技術的自然語言處理(NLP)模型,模型用於理解、生成、翻譯、總結...等等處理文字語言的任務。這些模型通常訓練於龐大的文本數據集上,以學習語言的結構、語法、語義等層面的知識。目前大型語言模型在日常生活中的應用十分廣泛,如聊天機器人、內容總結、文章改寫或文法修改都是大型語言模型常見得使用場景。
  • 多模態模型(Large Multimodal Models, LMM)
    「多模態」指的是多種資料型態,模型能夠處理並整合來自不同資料型態(例如文字、圖像、聲音等)的資訊,用來理解和生成跨模態的內容。多模態模型能夠整合多種數據的能力,幫助其應用在更多元複雜的決策場景,能夠推動醫學、自動駕駛...等等領域的進步。例如醫生結合病歷記錄 (文字)+心跳血壓(數字)+掃描圖像(圖片) 多種數據診斷病情,這種複雜的決策場景就很適合使用多模態模型作為輔助。


大型語言模型專注於深入理解和生成自然語言,而多模態模型接受輸入多種資料型態,並致力於跨模態之間的資訊整合和互動。我預測未來將會是多模態模型的天下,如同 ChatGPT 4 不只支援能夠用文字對話,也能夠製作圖片與上傳 Excel 數據檔案製作圖表,支援多種資料型態的多模態模型勢必成為趨勢!


分享至
成為作者繼續創作的動力吧!
© 2024 vocus All rights reserved.