我想要一天分享一點「LLM從底層堆疊的技術」,並且每篇文章長度控制在三分鐘以內,讓大家不會壓力太大,但是又能夠每天成長一點。
Stable Diffusion 超越了傳統 AI 生成圖像的界限,透過在 Latent Space 中引入創意自由 (即“噪聲”) 的擴散過程,開啟了生成式計算機視覺的巨大可能性,透過 Keras 我們了解了如何編碼語境化的輸入文字,並引入一個帶有“噪聲”的圖像片段 (允許創意發揮),接著,通過擴散過程對該圖像進行降維 (下採樣),最後上採樣生成一個 512 x 512 的高分辨率圖像,即使是這樣簡潔的源代碼,輸出的結果也令人驚嘆。
隨後,運行了一個 Stability AI 的文字生成圖像,我們還使用 OpenAI CLIP 在 Hugging Face 平台上生成了高效的文字到視頻內容,最後,我們結合了一個視頻到文字的分類器 - Meta TimeSformer,該模型能夠處理抽樣的視頻幀,推斷並生成描述視頻內容的文字輸出。
以下附上參考項目:
- Keras Stable Diffusion: https://keras.io/guides/keras_cv/generate_images_with_stable_diffusion/
- Stability AI: https://stability.ai/
- Stability AI Stable Diffusion: https://stability.ai/stablediffusion
- OpenAI CLIP implementation with ModelScope: https://huggingface.co/damo-vilab/modelscope-damo-text-to-video-synthesis
- TimeSformer: https://huggingface.co/docs/transformers/model_doc/timesformer
以下附上額外閱讀項目:
- Stability AI research blog: https://stability.ai/research

















