AI說書 - 從0開始 - 545 | 第十七章額外閱讀

2025/11/09 更新2025/11/09 發佈閱讀 3 分鐘

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。

從 AI說書 - 從0開始 - 523 | 第十七章引言到 AI說書 - 從0開始 - 544 | VideotoText 之 Meta TimeSformer 實現 (執行推論)，我們完成書籍：Transformers for Natural Language Processing and Computer Vision, Denis Rothman, 2024 第十七章說明。

Stable Diffusion 超越了傳統 AI 生成圖像的界限，透過在 Latent Space 中引入創意自由 (即“噪聲”) 的擴散過程，開啟了生成式計算機視覺的巨大可能性，透過 Keras 我們了解了如何編碼語境化的輸入文字，並引入一個帶有“噪聲”的圖像片段 (允許創意發揮)，接著，通過擴散過程對該圖像進行降維 (下採樣)，最後上採樣生成一個 512 x 512 的高分辨率圖像，即使是這樣簡潔的源代碼，輸出的結果也令人驚嘆。

隨後，運行了一個 Stability AI 的文字生成圖像，我們還使用 OpenAI CLIP 在 Hugging Face 平台上生成了高效的文字到視頻內容，最後，我們結合了一個視頻到文字的分類器 - Meta TimeSformer，該模型能夠處理抽樣的視頻幀，推斷並生成描述視頻內容的文字輸出。

以下附上參考項目：

Keras Stable Diffusion: https://keras.io/guides/keras_cv/generate_images_with_stable_diffusion/
Stability AI: https://stability.ai/
Stability AI Stable Diffusion: https://stability.ai/stablediffusion
OpenAI CLIP implementation with ModelScope: https://huggingface.co/damo-vilab/modelscope-damo-text-to-video-synthesis
TimeSformer: https://huggingface.co/docs/transformers/model_doc/timesformer

以下附上額外閱讀項目：

Stability AI research blog: https://stability.ai/research

Learn AI 不 BI三分鐘學AI (3)AI從0開始-十七章

留言

留言分享你的想法！

Learn AI 不 BI

240會員

919內容數

這裡將提供： AI、Machine Learning、Deep Learning、Reinforcement Learning、Probabilistic Graphical Model的讀書筆記與演算法介紹，一起在未來AI的世界擁抱AI技術，不BI。

Learn AI 不 BI的其他內容

2025/11/08

AI說書 - 從0開始 - 544 | VideotoText 之 Meta TimeSformer 實現 (執行推論)

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著開始載入模型，執行推論： image_processor = AutoImageProcessor.from_pretrained("MCG-NJU/videom

2025/11/08

AI說書 - 從0開始 - 544 | VideotoText 之 Meta TimeSformer 實現 (執行推論)

2025/11/07

AI說書 - 從0開始 - 543 | VideotoText 之 Meta TimeSformer 實現 (影片取樣)

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。我們需要一個取樣函數，每秒採樣一定數量的幀： def sample_frame_indices(clip_len, frame_sample_rate, seg_le

2025/11/07

AI說書 - 從0開始 - 543 | VideotoText 之 Meta TimeSformer 實現 (影片取樣)

2025/11/06

AI說書 - 從0開始 - 542 | VideotoText 之 Meta TimeSformer 實現 (內容擷取)

我想要一天分享一點「LLM從底層堆疊的技術」，並且每篇文章長度控制在三分鐘以內，讓大家不會壓力太大，但是又能夠每天成長一點。接著進入到 AI 模型部分： from transformers import TimesformerConfig, TimesformerModel config

2025/11/06

AI說書 - 從0開始 - 542 | VideotoText 之 Meta TimeSformer 實現 (內容擷取)

#AI 的其他內容

Google Stitch：生成 UI 介面設計，加速產品原型開發與協作

張紹宏

Gemini Pro 學生方案怎麼一直申請失敗? 原來是少做了「這件事」!

你可能也想看

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

去歐洲真的是又興奮又緊張。網路上常說歐洲治安不好，行前說明會時領隊也提醒：「不要背後背包，隨身物要放在前面比較安全！」但出國玩總是想打扮得美美的啊～而且隨身總得帶些實用小物：雨傘、濕紙巾、小瓶水、萬用藥膏……體積雖小，但零零總總裝起來也不少。我在蝦皮購買了這4樣超實用旅遊好物！減緩我的焦慮感。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

小橘貓沙沙的沙龍

旅遊前的神隊友！✈️第一次歐洲旅行，我在蝦皮購買了這4樣超實用旅遊好物！

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05

海倫觀察室 Helen's Insights

告別書本絕緣體！1 歲半寶寶愛上的互動書單㊙️，精打細算媽咪的「聰明消費」秘笈！

開箱 3 套深受 0-6 歲寶寶喜愛的互動式童書，包含 Bizzy Bear 推拉書、小小音樂大師有聲書、Poke A Dot 泡泡書，有效提升寶寶閱讀興趣與親子共讀時光。搭配蝦皮雙 11 購物攻略，教你如何鎖定免運、折價券、高額回饋，並透過蝦皮分潤計畫，將日常購物開銷轉化為穩定育兒基金，聰明消費。

#蝦皮分潤計畫#蝦皮1111#蝦皮免運

2025/11/05