Deepfake as A Service(DAAS): SORA, 最近AI界的紅話題, 眼見不一定為憑!

iBonnie_愛邦尼-avatar-img
發佈於AI領域展開 個房間
更新於 發佈於 閱讀時間約 5 分鐘


Sora 是一個 AI 模型,可以根據文字指令創建現實且富有想像的場景。Sora 可以產生長達一分鐘的Video。


官網上的幾個例子:

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.


請點選看上面文字內容影片

raw-image



Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.


點選看影片



raw-image


Prompt: This close-up shot of a Victoria crowned pigeon showcases its striking blue plumage and red chest. Its crest is made of delicate, lacy feathers, while its eye is a striking red color. The bird’s head is tilted slightly to the side, giving the impression of it looking regal and majestic. The background is blurred, drawing attention to the bird’s striking appearance.



看影片


raw-image




prompt: A Chinese Lunar New Year celebration video with Chinese Dragon.


影片


raw-image



官網說該模型對語言有深入的理解,使其能夠準確地解釋提示並產生引人注目的特色元素來表達充滿活力的情感。Sora 還可以在單一生成的影片中做出多個鏡頭,準確保留角色和視覺風格。


但也存在"沒有因果關係"的缺點。例如,一個人可能咬了一口餅乾,但之後餅乾可能沒有咬痕。還有空間感錯置等等等的問題。

例如奶奶吹蠟燭,蠟燭聞風不動

raw-image


動物或人無中生有

raw-image



要達到這些結果的背後需要幾個技術的結合,包括像是把圖像(高維度)降階為低維度的資料進行相關後續的訓練程序。

raw-image

然後透過diffusion model,生成圖像。Sora 是一個diffusion transformer。過去已經有許多研究了各種方法對視訊資料進行生成的模型,像是recurrent networks, generative adversarial networks, autoregressive transformers, diffusion models等等等。這些作品通常專注於一小類視覺數據、較短的影片或固定大小的影片。Sora 官方宣稱自己是視覺資料的通用模型,它可以產生跨越不同的持續時間、長寬比和解析度的影片和影像,最多可達一分鐘的高清影片。將視覺數據轉化為一系列的連續影片。


raw-image


他們利用一個降低維度的視覺資料訓練出一個神經網路。此網路將原始視訊作為輸入,並輸出包括時間和空間上的資訊。Sora以這樣的資料來訓練模型(潛在空間的向量運算),並且也訓練了對應的解碼器(decoder)模型,將產生的latents 映射回像素空間。


raw-image

潛在空間(latent space)可以用下圖的三維潛在空間來做說明:

raw-image


上面只是為了讓人類容易理解的三維空間,兩點在潛在空間中的位置越近,則代表圖片也就越相似,跟詞向量空間接近,在潛在空間中朝特定方向移動也是有意義的,例如順著 x 軸的箭頭代表人臉有沒有戴眼鏡;z 順著 y 軸的箭頭移動會看到年齡的變化;z 順著 z 軸的箭頭移動則代表性別的變化。真正的潛在空間是n維的,但不管幾維,他們就是順著這樣的理論在做事的。對基礎理論有興趣的讀者,不妨可以買本書來提升一下功力,在我們的Ref中可以參考。


總結,Sora結合了圖像的diffusion跟文字的transformer成功製造了Video的GAN模型,我們離駭客任務的世界,越來越近了。以後,所見不一定是所得,DAAS已經在身邊。




Ref.

https://openai.com/research/video-generation-models-as-world-simulators

https://www.books.com.tw/products/0010901055






avatar-img
5會員
75內容數
記錄生活與技術的小細節
留言
avatar-img
留言分享你的想法!

































































iBonnie_愛邦尼 的其他內容
列表看看 conda env list 一開始只有base  # conda environments: # base * /home/business/anaconda3 新增一個別的環境 conda create --name py39_env p
sudo apt-get install libgl1-mesa-glx libegl1-mesa libxrandr2 libxrandr2 libxss1 libxcursor1 libxcomposite1 libasound2 libxi6 libxtst6 安裝版本查找: http
本文介紹了GPU在ESXI上的三種使用方式: 直通、vGPU、Bitfusion。針對一般使用者可以輕易取得的消費者端顯示卡進行了直通的例子和設定步驟。文章詳細介紹了BIOS、 ESXI HOST和虛擬機的設定以及需要注意的各種細節。提供了最新的nvidia驅動下載連結,並分享了測試的方法。
本文介紹了text-generation-webui的安裝方法和模型的選擇,包括模型的下載和擺放位置,並提供了相關的連結和建議。
當你安裝完docker,並且設定好所有相關程序後。你正要使用docker去進行操作,讓專案可以在容器哩,方便平台移轉、備份、共用等等等等等;如果你遇到CUDA docker runtime 的問題時,這篇正適合你閱讀。 開始之前,如果你要參考怎麼安裝docker,設定docker環境,請參考:
從最初的接觸到深度的投懷送抱,這篇文章對於解決如何安裝text-generation-webui提供了清晰的指引。 它引導讀者通過它的官方方式和Docker方式做到這一點。此外,作者還分享了必要的優化建議。
列表看看 conda env list 一開始只有base  # conda environments: # base * /home/business/anaconda3 新增一個別的環境 conda create --name py39_env p
sudo apt-get install libgl1-mesa-glx libegl1-mesa libxrandr2 libxrandr2 libxss1 libxcursor1 libxcomposite1 libasound2 libxi6 libxtst6 安裝版本查找: http
本文介紹了GPU在ESXI上的三種使用方式: 直通、vGPU、Bitfusion。針對一般使用者可以輕易取得的消費者端顯示卡進行了直通的例子和設定步驟。文章詳細介紹了BIOS、 ESXI HOST和虛擬機的設定以及需要注意的各種細節。提供了最新的nvidia驅動下載連結,並分享了測試的方法。
本文介紹了text-generation-webui的安裝方法和模型的選擇,包括模型的下載和擺放位置,並提供了相關的連結和建議。
當你安裝完docker,並且設定好所有相關程序後。你正要使用docker去進行操作,讓專案可以在容器哩,方便平台移轉、備份、共用等等等等等;如果你遇到CUDA docker runtime 的問題時,這篇正適合你閱讀。 開始之前,如果你要參考怎麼安裝docker,設定docker環境,請參考:
從最初的接觸到深度的投懷送抱,這篇文章對於解決如何安裝text-generation-webui提供了清晰的指引。 它引導讀者通過它的官方方式和Docker方式做到這一點。此外,作者還分享了必要的優化建議。
你可能也想看
Google News 追蹤
Thumbnail
只看最近新聞,就有許多AI深偽技術的受害者。比如說,在二月十五日的集會抗議行動中,反對韓國總統尹錫悅的團體,多次播放了一段長達3分20秒的深偽影片,影片中總統尹錫悅穿著內衣,而第一夫人金建希則穿著泳裝。
Thumbnail
還覺得 深偽技術 就是拿朋友的臉換成明星然後搞笑一下? 拜託,這招早就過氣了!
Thumbnail
Deepfake技術的崛起帶來真假難辨的時代,本文探討Deepfake的製作方法、社會衝擊及因應策略,並分析其在媒體識讀、政治操弄、隱私保護等面向的影響,同時也探討Deepfake技術的正面應用與未來發展趨勢。
完全可以理解為什麼韓國女生說得出「我的胯下不能生出歧視我的性別、我的血肉不能變成刺向我的尖刀。如果我的胯下誕生的世界壓迫我,那我就不讓這個世界誕生」
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Sora 是一個 AI 模型,可以根據文字指令創建現實且富有想像的場景。Sora 可以產生長達一分鐘的Video。 官網上的幾個例子: Prompt: Several giant wooly mammoths approach treading through a snowy meado
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較
Thumbnail
只看最近新聞,就有許多AI深偽技術的受害者。比如說,在二月十五日的集會抗議行動中,反對韓國總統尹錫悅的團體,多次播放了一段長達3分20秒的深偽影片,影片中總統尹錫悅穿著內衣,而第一夫人金建希則穿著泳裝。
Thumbnail
還覺得 深偽技術 就是拿朋友的臉換成明星然後搞笑一下? 拜託,這招早就過氣了!
Thumbnail
Deepfake技術的崛起帶來真假難辨的時代,本文探討Deepfake的製作方法、社會衝擊及因應策略,並分析其在媒體識讀、政治操弄、隱私保護等面向的影響,同時也探討Deepfake技術的正面應用與未來發展趨勢。
完全可以理解為什麼韓國女生說得出「我的胯下不能生出歧視我的性別、我的血肉不能變成刺向我的尖刀。如果我的胯下誕生的世界壓迫我,那我就不讓這個世界誕生」
Thumbnail
Open AI影片生成模型Sora橫空出世 Sora是一個 AI 模型,可依據文字指令創建現實和富有想像的場景 這是Open AI首頁關於生成模型Sora的簡介 Open AI執行長將籌資數兆美元重塑全球半導體產業 全美娛樂產業接受訪談的300位主管,認為未來3年將有20萬個工作 受到AI
Thumbnail
Sora 是一個 AI 模型,可以根據文字指令創建現實且富有想像的場景。Sora 可以產生長達一分鐘的Video。 官網上的幾個例子: Prompt: Several giant wooly mammoths approach treading through a snowy meado
Thumbnail
如果AI能夠生成高質感的影片,對影視業不啻一場革命。 無需龐大設備和龐大後製團隊,只需要指令,幾分鐘即能輕鬆完成。 這對影視業來說無疑是一場革命。
Thumbnail
股癌24.02.19 *OPEN AI鴨子划水,推出文字轉影片的AI模型Sora。 Sora對物體世界有認知,有望成為真正的世界模型,真正教會AI世界運作的道理,AI教會人類手指動作、玻璃碎掉、光影反射的物理狀況。 --之前的文字轉影片 背景會一直閃、因為模型還沒有算得很準。 *Sora相較