AI說書 - 從0開始 - 541 | VideotoText 之 Meta TimeSformer 實現 (影片下載)

2025/11/05 更新2025/11/05 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

Meta TimeSformer 是一種基於 Transformer 的架構，專為視頻數據設計，它首先將視頻的每一幀轉換為特徵序列，這些特徵序列能夠捕捉畫面中的空間訊息，接著，這些特徵被傳遞到解碼器堆疊，通過模型的多層結構來建模幀與幀之間的時序關係，最後，模型輸出的是原始的 Logits，即對不同標籤的信心分數，這些分數可以通過 Softmax 等技術轉化為具體的分類標籤。TimeSformer 的這種處理方法特別適合用於分析視頻中的動作和場景，其結合空間和時間特徵的能力使其在視頻分類、動作識別等任務中表現出色。

TimeSformer 使用 PyAv 庫將視頻解碼為 NumPy 陣列，此 NumPy 陣列以視頻播放順序保存每一幀的數據，取樣率和內容長度決定了解碼出的幀數，TimeSformer 依據這些取樣幀的序列進行預測。接下來，我們將使用 TimeSformer 模型的輸出作為輸入，結合 Stability AI 的 Stable Diffusion 進行「標籤到圖像」任務，目標是探索如何利用擴散模型來增強標籤預測或完成其他相關任務。

首先安裝相關配件包：

!pip install transformers
!pip install av
from IPython.display import HTML 
from base64 import b64encode 
from huggingface_hub import hf_hub_download

接著從 HuggingFace 下載影片，並讀取：

file_path = hf_hub_download(repo_id = "nielsr/video-demo", filename = "eating_spaghetti.mp4", repo_type = "dataset")
with open(file_path, 'rb') as f:
	video_data = f.read()
	
HTML("""
""".format(b64encode(video_data).decode()))

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十七章

留言

留言分享你的想法！

Learn AI 不 BI

240會員

919內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/10/31

AI說書 - 從0開始 - 540 | Stable Diffusion 之 OpenAI CLIP 實現 (生影片)

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為： p = pipeline('text-to-video-synthesis', 'da

2025/10/31

AI說書 - 從0開始 - 540 | Stable Diffusion 之 OpenAI CLIP 實現 (生影片)

2025/10/30

AI說書 - 從0開始 - 539 | Stable Diffusion 之 OpenAI CLIP 實現 (配參數)

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為： !pip install modelscope == 1.4.2 !pip inst

2025/10/30

AI說書 - 從0開始 - 539 | Stable Diffusion 之 OpenAI CLIP 實現 (配參數)

2025/10/29

AI說書 - 從0開始 - 538 | Stable Diffusion 之 Stability AI 實現 (生影片)

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們現在定義動畫的開始圖像和結束圖像的文本： animation_prompts = {0: "a photo of a fantastic spaceship",

2025/10/29

AI說書 - 從0開始 - 538 | Stable Diffusion 之 Stability AI 實現 (生影片)

#AI 的其他內容

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

張紹宏

Gemini Pro 學生方案怎麼一直申請失敗? 原來是少做了「這件事」!

你可能也想看

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

去歐洲真的是又興奮又緊張。網路上常說歐洲治安不好，行前說明會時領隊也提醒：「不要背後背包，隨身物要放在前面比較安全！」但出國玩總是想打扮得美美的啊～而且隨身總得帶些實用小物：雨傘、濕紙巾、小瓶水、萬用藥膏……體積雖小，但零零總總裝起來也不少。我在蝦皮購買了這4樣超實用旅遊好物！減緩我的焦慮感。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

海倫觀察室 Helen's Insights

告別書本絕緣體！1 歲半寶寶愛上的互動書單㊙️，精打細算媽咪的「聰明消費」秘笈！

開箱 3 套深受 0-6 歲寶寶喜愛的互動式童書，包含 Bizzy Bear 推拉書、小小音樂大師有聲書、Poke A Dot 泡泡書，有效提升寶寶閱讀興趣與親子共讀時光。搭配蝦皮雙 11 購物攻略，教你如何鎖定免運、折價券、高額回饋，並透過蝦皮分潤計畫，將日常購物開銷轉化為穩定育兒基金，聰明消費。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05