我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
TimeSformer 使用 PyAv 庫將視頻解碼為 NumPy 陣列,此 NumPy 陣列以視頻播放順序保存每一幀的數據,取樣率和內容長度決定了解碼出的幀數,TimeSformer 依據這些取樣幀的序列進行預測。接下來,我們將使用 TimeSformer 模型的輸出作為輸入,結合 Stability AI 的 Stable Diffusion 進行「標籤到圖像」任務,目標是探索如何利用擴散模型來增強標籤預測或完成其他相關任務。
首先安裝相關配件包:
!pip install transformers
!pip install av
from IPython.display import HTML
from base64 import b64encode
from huggingface_hub import hf_hub_download
接著從 HuggingFace 下載影片,並讀取:
file_path = hf_hub_download(repo_id = "nielsr/video-demo", filename = "eating_spaghetti.mp4", repo_type = "dataset")
with open(file_path, 'rb') as f:
video_data = f.read()
HTML("""
""".format(b64encode(video_data).decode()))

















