AI說書 - 從0開始 - 543 | VideotoText 之 Meta TimeSformer 實現 (影片取樣)

更新 發佈閱讀 2 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。


我們需要一個取樣函數,每秒採樣一定數量的幀:

def sample_frame_indices(clip_len, frame_sample_rate, seg_len):
converted_len = int(clip_len * frame_sample_rate)
end_idx = np.random.randint(converted_len, seg_len)
start_idx = end_idx - converted_len
indices = np.linspace(start_idx, end_idx, num = clip_len)
indices = np.clip(indices, start_idx, end_idx - 1).astype(np.int64)
return indices


執行取樣,取樣 8 個 Frame:

file_path = hf_hub_download(repo_id = "nielsr/video-demo", filename = "eating_spaghetti.mp4", repo_type = "dataset")
container = av.open(file_path)

indices = sample_frame_indices(clip_len = 8, frame_sample_rate = 1, seg_len = container.streams.video[0].frames)
video = read_video_pyav(container, indices)
留言
avatar-img
Learn AI 不 BI
249會員
1.1K內容數
這裡將提供: AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹,一起在未來AI的世界擁抱AI技術,不BI。
Learn AI 不 BI的其他內容
2025/11/06
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著進入到 AI 模型部分: from transformers import TimesformerConfig, TimesformerModel config
2025/11/06
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 接著進入到 AI 模型部分: from transformers import TimesformerConfig, TimesformerModel config
2025/11/05
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Meta TimeSformer 是一種基於 Transformer 的架構,專為視頻數據設計,它首先將視頻的每一幀轉換為特徵序列,這些特徵序列能夠捕捉畫面中的空間訊息
2025/11/05
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 Meta TimeSformer 是一種基於 Transformer 的架構,專為視頻數據設計,它首先將視頻的每一幀轉換為特徵序列,這些特徵序列能夠捕捉畫面中的空間訊息
2025/10/31
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為: p = pipeline('text-to-video-synthesis', 'da
2025/10/31
我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。 OpenAI CLIP 實現 Stable Diffusion 影片的程式為: p = pipeline('text-to-video-synthesis', 'da
看更多
你可能也想看
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
賽勒布倫尼科夫以流亡處境回望蘇聯電影導演帕拉贊諾夫的舞台作品,以十段寓言式殘篇,重新拼貼記憶、暴力與美學,並將審查、政治犯、戰爭陰影與「形式即政治」的劇場傳統推到台前。本文聚焦於《傳奇:帕拉贊諾夫的十段殘篇》的舞台美術、音樂與多重扮演策略,嘗試解析極權底下不可言說之事,將如何成為可被觀看的公共發聲。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
柏林劇團在 2026 北藝嚴選,再次帶來由布萊希特改編的經典劇目《三便士歌劇》(The Threepenny Opera),導演巴里・柯斯基以舞台結構與舞台調度,重新向「疏離」進行提問。本文將從觀眾慾望作為戲劇內核,藉由沉浸與疏離的辯證,解析此作如何再次照見觀眾自身的位置。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
本文深入解析臺灣劇團「晃晃跨幅町」對易卜生經典劇作《海妲.蓋柏樂》的詮釋,從劇本歷史、聲響與舞臺設計,到演員的主體創作方法,探討此版本如何讓經典劇作在當代劇場語境下煥發新生,滿足現代觀眾的觀看慾望。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
《轉轉生》為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,融合舞蹈、音樂、時尚和視覺藝術,透過身體、服裝與群舞結構,回應殖民歷史、城市經驗與祖靈記憶的交錯。本文將從服裝設計、身體語彙與「輪迴」的「誕生—死亡—重生」結構出發,分析《轉轉生》如何以當代目光,形塑去殖民視角的奈及利亞歷史。
Thumbnail
你是否覺得與 AI 對話總是辭不達意?本文將分享一套「科技通靈」的實踐儀式,拆解四個關鍵步驟,教你如何超越單純的提示詞詠唱。這不只是一篇教學,而是一場心態的轉變,引導你從操作者蛻變為能與 AI 共同創造、真正「賦靈」的數位鍊金術士。
Thumbnail
你是否覺得與 AI 對話總是辭不達意?本文將分享一套「科技通靈」的實踐儀式,拆解四個關鍵步驟,教你如何超越單純的提示詞詠唱。這不只是一篇教學,而是一場心態的轉變,引導你從操作者蛻變為能與 AI 共同創造、真正「賦靈」的數位鍊金術士。
Thumbnail
這場講座將帶領你逐步入門生成式AI,從認識AI到實際應用,包含五大提問技巧、圖像生成實戰、工作流應用案例、真實經驗分享以及講師自身的轉變經驗,讓你輕鬆學會使用AI提升生活和工作效率。
Thumbnail
這場講座將帶領你逐步入門生成式AI,從認識AI到實際應用,包含五大提問技巧、圖像生成實戰、工作流應用案例、真實經驗分享以及講師自身的轉變經驗,讓你輕鬆學會使用AI提升生活和工作效率。
Thumbnail
這篇文章整理了數個實用的Prompt資源網站,幫助讀者更有效率地與AI溝通,並提升AI工具的使用效率。文章內容包含Prompt庫的使用優點、網站介紹及功能特色,以及如何善用Prompt資源網站提升思考能力。
Thumbnail
這篇文章整理了數個實用的Prompt資源網站,幫助讀者更有效率地與AI溝通,並提升AI工具的使用效率。文章內容包含Prompt庫的使用優點、網站介紹及功能特色,以及如何善用Prompt資源網站提升思考能力。
Thumbnail
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
隨著大型語言模型的快速發展,Prompt Engineering 已成為提升模型表現的核心技術。OpenAI 日前推出了 GPT-4.1 Prompting Guide,為開發者提供全面的提示詞改善策略,幫助充分利用 GPT-4.1 在編碼、指令遵循和長上下文處理上的進步。
Thumbnail
這份 AI 學習路線圖,從 Prompt Engineering 到全自動 AI 應用開發,循序漸進,適合各個背景的人學習。
Thumbnail
這份 AI 學習路線圖,從 Prompt Engineering 到全自動 AI 應用開發,循序漸進,適合各個背景的人學習。
Thumbnail
善用SCENE模型,提升AI回覆的創意和專業度!SCENE模型包含五個元素:Story(場景設定)、Context(背景資訊)、Expert(專業角色)、Need(具體需求)、Emotion(情感元素)。透過設定這些元素,讓AI更瞭解你的需求,產生更貼近你預期的結果。
Thumbnail
善用SCENE模型,提升AI回覆的創意和專業度!SCENE模型包含五個元素:Story(場景設定)、Context(背景資訊)、Expert(專業角色)、Need(具體需求)、Emotion(情感元素)。透過設定這些元素,讓AI更瞭解你的需求,產生更貼近你預期的結果。
Thumbnail
利用 Stable Diffusion 每日免費的十個 Credits 練習 AI 繪圖詠唱 (Prompt Engineering)
Thumbnail
利用 Stable Diffusion 每日免費的十個 Credits 練習 AI 繪圖詠唱 (Prompt Engineering)
Thumbnail
⋯⋯不過,我所抱持的心態,並不是透過提示來獲得答案,而是透過提示來獲得通往最終答案的靈感或啟發。——《高產出的本事》劉奕酉
Thumbnail
⋯⋯不過,我所抱持的心態,並不是透過提示來獲得答案,而是透過提示來獲得通往最終答案的靈感或啟發。——《高產出的本事》劉奕酉
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News