從資料訓練困境到無限可能:看Meta PE 與 PLM 如何解析影片數據

更新於 發佈於 閱讀時間約 7 分鐘

發現Meta AI前陣子低調地推出了兩款視覺語言模型:Meta Perception Encoder (PE)(感知編碼器)與 Meta Perception Language Model (PLM)(感知語言模型)。這兩款模型不僅在圖像與影片任務中展現優異性能,還比照Llama系列開源。與此同時,AI訓練面臨的資料量困境正逐漸浮現,而影片數據的引入或許是突破瓶頸的關鍵之一。本文將介紹PE與PLM的技術特色與應用場景,並分析影片數據是否能為AI訓練帶來改變。


Meta Perception Encoder (PE):AI的「視覺之眼」

raw-image

Perception Encoder: The best visual embeddings are not at the output of the network

什麼是Meta Perception Encoder (PE)?

Meta Perception Encoder (PE)(感知編碼器)是一款由Meta AI開發的大規模視覺模型,專為圖像與影片任務設計。PE採用單一對比式視覺-語言目標進行訓練,取代了傳統的碎片化預訓練方法。其核心優勢在於零樣本分類(Zero-shot Classification)與檢索任務(Retrieval Tasks)表現驚人。

  • 多模態能力:PE擅長零樣本圖像與影片分類、檢索,並支援視覺問答(Visual Question Answering, VQA)、圖像描述生成(Captioning)、文件理解(Document Understanding)與視覺定位(Grounding)。
  • 訓練創新:使用漸進式解析度縮放(Progressive Resolution)、大批次訓練(Increasing Batch Size)、LAMB優化器、2D RoPE等技術。
  • 影片數據引擎:PE整合了一個生成高品質影片-文本對的引擎,結合PLM生成的字幕與幀級描述,無需依賴專有數據集。
  • 開源透明:Meta公開了PE的研究論文與程式碼,確保開源社群參與。

應用場景

PE被譽為AI系統的「眼睛」,為多模態AI提供先進的視覺理解能力。其主要用途包括:

  • 零樣本分類與檢索:PE能精準識別複雜場景,例如海底埋藏的魟魚、背景中的小金翅雀,或夜視攝影機捕捉的鼠類動物。
  • 視覺問答與描述:整合至大型語言模型後,PE在圖像與影片的視覺問答、字幕生成與文件理解任務中表現優異,超越其他視覺編碼器。
  • 空間與運動推理:PE顯著提升語言模型在困難任務中的表現,例如判斷物體間的前後關係或攝影機是否繞物體順時針移動。
  • 多領域應用:PE支援電腦視覺、機器人技術與擴增實境(Augmented Reality, AR),例如增強機器人對空間關係的理解或為AR/VR應用提供即時視覺感知。

Meta Perception Language Model (PLM):視覺與語言的橋樑

raw-image

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

什麼是Meta Perception Language Model (PLM)?

Meta Perception Language Model (PLM)(感知語言模型)是開源視覺-語言模型,結合PE與LLaMA 3語言解碼器,專為複雜視覺識別任務設計。PLM在圖像與影片的字幕生成、視覺問答與密集區域推理(Dense Region-based Reasoning)等任務中表現優異,尤其擅長理解影片中的時空關係(Spatio-temporal Relationships),如攝影機運動模式。

  • 模組化設計:PLM整合0.3億參數的PE-L與LLaMA 3解碼器。
  • 多階段訓練:包括低解析度合成圖像預熱、多樣化合成數據集訓練,以及高解析度數據監督微調。
  • 動態分塊技術:支援高解析度圖像與32幀影片輸入,透過平均池化降低解析度,提升效率。
  • 全新基準:PLM引入了PLM-VideoBench(影片基準),用於評估影片理解的細粒度活動理解(Fine-grained Activity Understanding)與時空推理能力。
  • 開源影響:PLM論文資料已公開,同時提供1B、3B與8B參數模型,透過Hugging Face供全球開發者使用,促進影片內容分析的應用。

應用場景

PLM的設計使其成為視覺識別任務的強大工具,主要用途包括:

  • 複雜視覺識別:PLM處理細粒度活動理解與時空推理,例如分析影片中的動作序列或空間佈局。
  • 學術研究:其透明的訓練流程與多參數變體(1B、3B、8B)為學術界提供可重現的模型,推動電腦視覺研究。
  • 商業應用:PLM支援影片分析與多模態AI,例如社群媒體平台的內容審核或廣告目標定位。

AI訓練的資料量困境與影片數據的突破

訓練資料量不足的挑戰

AI模型的性能高度依賴訓練數據的數量與品質。然而,當前AI訓練面臨資料量瓶頸:

  • 圖像與文本數據有限:高品質的標註圖像與文本數據集(如ImageNet)規模有限,難以滿足大規模模型需求。
  • 標註成本高昂:人工標註數據耗時且昂貴,尤其對於視覺任務。
  • 過擬合風險:有限數據集易導致模型過擬合,難以適應開放世界的複雜場景。

影片數據突破瓶頸的關鍵

影片數據因其龐大的資料量與多模態特性,成為解決AI資料困境的理想選擇之一:

  • 資料量爆炸性增長:每分鐘影片(30幀/秒)可生成1800個圖像等效幀。YouTube等平台擁有數十億小時的影片內容,提供近乎無限的數據源。
  • 多模態資訊:影片結合視覺、時序與音訊數據,支援動作識別、時序推理等複雜任務。例如,PLM利用影片數據集訓練空間關係理解。
  • 合成數據引擎:Meta的PE與PLM透過影片數據引擎生成高品質影片-文本資料集,無需大量人工標註。
  • 真實場景理解:影片捕捉動態真實世界場景,適用於機器人、自動駕駛與AR等應用。

Meta的Perception Encoder (PE)與Perception Language Model (PLM)代表了AI視覺技術的重大突破,透過開源與影片數據的創新應用,為多模態AI持續開闢新道路,也為機器人、AR與影片分析等領域帶來更智慧、更通用的未來。

我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~

也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!

>>>請我喝一杯咖啡

留言
avatar-img
留言分享你的想法!
avatar-img
TN科技筆記(TechNotes)的沙龍
29會員
110內容數
大家好,我是TN,喜歡分享科技領域相關資訊,希望各位不吝支持與交流!
2025/05/10
NVIDIA前陣子推出了Llama-Nemotron系列,這是一組專為高效AI推理和代理工作流程設計的開源推理模型。本文將深入探討Llama-Nemotron系列的發布、開源特性,以及其與DeepSeek-R1的效能比較。
Thumbnail
2025/05/10
NVIDIA前陣子推出了Llama-Nemotron系列,這是一組專為高效AI推理和代理工作流程設計的開源推理模型。本文將深入探討Llama-Nemotron系列的發布、開源特性,以及其與DeepSeek-R1的效能比較。
Thumbnail
2025/05/09
Mistral AI於2025年5月7日推出 Mistral Medium 3,以高效能、低成本和企業級應用為核心,挑戰市場上的頂尖模型。這款模型不僅在效能上媲美Anthropic的Claude Sonnet 3.7,更以低至8倍的成本優勢,成為企業數位轉型的理想選擇。
Thumbnail
2025/05/09
Mistral AI於2025年5月7日推出 Mistral Medium 3,以高效能、低成本和企業級應用為核心,挑戰市場上的頂尖模型。這款模型不僅在效能上媲美Anthropic的Claude Sonnet 3.7,更以低至8倍的成本優勢,成為企業數位轉型的理想選擇。
Thumbnail
2025/05/07
Google 在 2025 年 5 月 6 日發布了 Gemini 2.5 Pro Preview 05-06,似乎在為即將登場的 Google I/O 2025 開發者大會預熱。這款更新版模型以其卓越的編碼能力、前端網頁開發表現,以及多模態應用的突破,成為最新的AI焦點。
Thumbnail
2025/05/07
Google 在 2025 年 5 月 6 日發布了 Gemini 2.5 Pro Preview 05-06,似乎在為即將登場的 Google I/O 2025 開發者大會預熱。這款更新版模型以其卓越的編碼能力、前端網頁開發表現,以及多模態應用的突破,成為最新的AI焦點。
Thumbnail
看更多
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
在當今快速變化的數位時代,企業面臨著前所未有的數據處理需求。為了應對這些挑戰,企業紛紛建立自己的大型語言模型(LLM),利用大量數據進行訓練,讓模型能夠理解並生成自然語言,從而實現人機協作,優化業務流程並提升客戶體驗。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文介紹了人工智慧(AI)及機器學習(ML)的基本概念和關係,探討了數據在機器學習中的重要性,以及深度學習和生成式人工智慧的應用。
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
本文要探討AI的任務與實戰場景。AI技術已深入生活各層面,從違約預測到都市交通管理。AI任務主要有三類:數值型資料處理、自然語言處理(NLP)和電腦影像辨識。時間序列資料和強化學習方法(如AlphaGo)也引起廣泛關注。AI演算法和方法因應不同學派和技術發展而多樣化,了解這些基礎有助選擇適合研究方向
Thumbnail
TAAA攜手Meta舉辦AI Camp系列課程,透過從平台的基礎行銷最佳方案到結合進階的AI自動化產品,乃至於在迎來Cookieless時代後,作為廣告主以及行銷顧問該如何掌握第一方資料再運用,成為行銷成效再進化的關鍵,課程中將一一剖析。
Thumbnail
TAAA攜手Meta舉辦AI Camp系列課程,透過從平台的基礎行銷最佳方案到結合進階的AI自動化產品,乃至於在迎來Cookieless時代後,作為廣告主以及行銷顧問該如何掌握第一方資料再運用,成為行銷成效再進化的關鍵,課程中將一一剖析。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
這篇文章討論了自然語言處理技術的發展歷程,從語言模型的引入到深度學習的應用。作者觀察到現今GPT在產出中文國學內容時的深度不足,並提出了自然語言處理領域的倫理使用和版權問題,以及對大眾的影響。最後,作者探討了個人在自然語言領域的發展可能性。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
  在 AI 應用中,圖像、語音、文字三種可以說是主要應用,其中我一直以來都是專注於圖像上的研究,對於另兩種僅止於淺嚐,接下來就往音訊上研究看看,先從入門級的Text-To-Speech (TTL) 入場並一個個嘗試其他類型的應用,那麼,就讓我們開始吧。
Thumbnail
Meta Platforms 正在探索推出其人工智慧助理 Meta AI 的付費版本的可能性,因為它的目標是在快速發展的人工智慧市場中與其他科技巨頭競爭。該付費版本擁有潛在的高級功能,並將競爭能力提高到新的水平。
Thumbnail
Meta Platforms 正在探索推出其人工智慧助理 Meta AI 的付費版本的可能性,因為它的目標是在快速發展的人工智慧市場中與其他科技巨頭競爭。該付費版本擁有潛在的高級功能,並將競爭能力提高到新的水平。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
語言模型與文字表示以不同的方式來分析自然語言的詞語分佈及語意關係。本文章簡要介紹了語言模型、Word2vec、FastText、GloVe和Transformer等技術,並提供了實際的應用參考點,幫助讀者深入理解自然語言處理的技術。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
在數位化的世界中,用戶介面和信息圖表等視覺元素扮演著越來越重要的角色,而ScreenAI的開發為自然語言處理和計算機視覺的融合開啟了新的可能性。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
Thumbnail
人工智慧(AI)的發展日新月異,其中生成式AI成為近年矚目的焦點之一。生成式AI不僅能夠模仿人類智能,更能夠創造全新的內容和想法。本文將深入探討生成式AI在影像領域的應用,包括其概念、原理、發展趨勢,以及一些嶄新的生成式AI公司和軟體。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News