發現Meta AI前陣子低調地推出了兩款視覺語言模型:Meta Perception Encoder (PE)(感知編碼器)與 Meta Perception Language Model (PLM)(感知語言模型)。這兩款模型不僅在圖像與影片任務中展現優異性能,還比照Llama系列開源。與此同時,AI訓練面臨的資料量困境正逐漸浮現,而影片數據的引入或許是突破瓶頸的關鍵之一。本文將介紹PE與PLM的技術特色與應用場景,並分析影片數據是否能為AI訓練帶來改變。
Meta Perception Encoder (PE):AI的「視覺之眼」

Perception Encoder: The best visual embeddings are not at the output of the network
什麼是Meta Perception Encoder (PE)?
Meta Perception Encoder (PE)(感知編碼器)是一款由Meta AI開發的大規模視覺模型,專為圖像與影片任務設計。PE採用單一對比式視覺-語言目標進行訓練,取代了傳統的碎片化預訓練方法。其核心優勢在於零樣本分類(Zero-shot Classification)與檢索任務(Retrieval Tasks)表現驚人。- 多模態能力:PE擅長零樣本圖像與影片分類、檢索,並支援視覺問答(Visual Question Answering, VQA)、圖像描述生成(Captioning)、文件理解(Document Understanding)與視覺定位(Grounding)。
- 訓練創新:使用漸進式解析度縮放(Progressive Resolution)、大批次訓練(Increasing Batch Size)、LAMB優化器、2D RoPE等技術。
- 影片數據引擎:PE整合了一個生成高品質影片-文本對的引擎,結合PLM生成的字幕與幀級描述,無需依賴專有數據集。
- 開源透明:Meta公開了PE的研究論文與程式碼,確保開源社群參與。
應用場景
PE被譽為AI系統的「眼睛」,為多模態AI提供先進的視覺理解能力。其主要用途包括:
- 零樣本分類與檢索:PE能精準識別複雜場景,例如海底埋藏的魟魚、背景中的小金翅雀,或夜視攝影機捕捉的鼠類動物。
- 視覺問答與描述:整合至大型語言模型後,PE在圖像與影片的視覺問答、字幕生成與文件理解任務中表現優異,超越其他視覺編碼器。
- 空間與運動推理:PE顯著提升語言模型在困難任務中的表現,例如判斷物體間的前後關係或攝影機是否繞物體順時針移動。
- 多領域應用:PE支援電腦視覺、機器人技術與擴增實境(Augmented Reality, AR),例如增強機器人對空間關係的理解或為AR/VR應用提供即時視覺感知。
Meta Perception Language Model (PLM):視覺與語言的橋樑

PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding
什麼是Meta Perception Language Model (PLM)?
Meta Perception Language Model (PLM)(感知語言模型)是開源視覺-語言模型,結合PE與LLaMA 3語言解碼器,專為複雜視覺識別任務設計。PLM在圖像與影片的字幕生成、視覺問答與密集區域推理(Dense Region-based Reasoning)等任務中表現優異,尤其擅長理解影片中的時空關係(Spatio-temporal Relationships),如攝影機運動模式。
- 模組化設計:PLM整合0.3億參數的PE-L與LLaMA 3解碼器。
- 多階段訓練:包括低解析度合成圖像預熱、多樣化合成數據集訓練,以及高解析度數據監督微調。
- 動態分塊技術:支援高解析度圖像與32幀影片輸入,透過平均池化降低解析度,提升效率。
- 全新基準:PLM引入了PLM-VideoBench(影片基準),用於評估影片理解的細粒度活動理解(Fine-grained Activity Understanding)與時空推理能力。
- 開源影響:PLM論文資料已公開,同時提供1B、3B與8B參數模型,透過Hugging Face供全球開發者使用,促進影片內容分析的應用。
應用場景
PLM的設計使其成為視覺識別任務的強大工具,主要用途包括:
- 複雜視覺識別:PLM處理細粒度活動理解與時空推理,例如分析影片中的動作序列或空間佈局。
- 學術研究:其透明的訓練流程與多參數變體(1B、3B、8B)為學術界提供可重現的模型,推動電腦視覺研究。
- 商業應用:PLM支援影片分析與多模態AI,例如社群媒體平台的內容審核或廣告目標定位。
AI訓練的資料量困境與影片數據的突破
訓練資料量不足的挑戰
AI模型的性能高度依賴訓練數據的數量與品質。然而,當前AI訓練面臨資料量瓶頸:
- 圖像與文本數據有限:高品質的標註圖像與文本數據集(如ImageNet)規模有限,難以滿足大規模模型需求。
- 標註成本高昂:人工標註數據耗時且昂貴,尤其對於視覺任務。
- 過擬合風險:有限數據集易導致模型過擬合,難以適應開放世界的複雜場景。
影片數據突破瓶頸的關鍵
影片數據因其龐大的資料量與多模態特性,成為解決AI資料困境的理想選擇之一:
- 資料量爆炸性增長:每分鐘影片(30幀/秒)可生成1800個圖像等效幀。YouTube等平台擁有數十億小時的影片內容,提供近乎無限的數據源。
- 多模態資訊:影片結合視覺、時序與音訊數據,支援動作識別、時序推理等複雜任務。例如,PLM利用影片數據集訓練空間關係理解。
- 合成數據引擎:Meta的PE與PLM透過影片數據引擎生成高品質影片-文本資料集,無需大量人工標註。
- 真實場景理解:影片捕捉動態真實世界場景,適用於機器人、自動駕駛與AR等應用。
Meta的Perception Encoder (PE)與Perception Language Model (PLM)代表了AI視覺技術的重大突破,透過開源與影片數據的創新應用,為多模態AI持續開闢新道路,也為機器人、AR與影片分析等領域帶來更智慧、更通用的未來。
我是TN科技筆記,如果喜歡這篇文章,歡迎留言、點選愛心、轉發給我支持鼓勵~
也歡迎每個月請我喝杯咖啡,鼓勵我撰寫更多科技文章,一起跟著科技浪潮前進!!
>>>請我喝一杯咖啡