vocus logo

方格子 vocus

付費限定

用一張圖片生成多視角3D,LRM by Hong et al.

更新 發佈閱讀 3 分鐘

Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。

論文整體架構:

Image本身經過Vision Transformer (DINO) 架構進行編碼,DINO由Meta開發,目前數一數二的影像編碼模型。將2D圖片編碼後可得到 (32 x 32) x 768 的Latent,藉由Cross Attention 結合NeRF / Triplane 的3D生成架構,解碼並進行體積渲染還原出數個視角的2D圖片,進行2-Norm 和 LPIPS (感知相似性) Loss的收斂。

raw-image


由不同的Camera features,可以解碼產生不同視角的圖片,Inference的時候,query 總共 384 x 384 x 384 個點生成mesh (w/ marching cubes),使用的相機視角可以包含每個角度的正規化相機參數,這些參數也是當初拿來訓練的相機參數。

許多準備好的Ground True Views,用來收斂模型的Loss

許多準備好的Ground True Views,用來收斂模型的Loss

以行動支持創作者!付費即可解鎖
本篇內容共 1577 字、0 則留言,僅發佈於人工智慧宇宙你目前無法檢視以下內容,可能因為尚未登入,或沒有該房間的查看權限。
留言
avatar-img
無限智慧學院的沙龍
96會員
128內容數
帶你用上帝視角,針對市面上具有高度價值的影片/論文/書籍,用東方取象,與西方邏輯辯證的角度同時出發,跟著我一起來探討宇宙萬事萬物的本質,隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷,近期對於人工智慧,東方易經,西方辯證邏輯,還有佛法向內求有深度興趣。
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/28
這次要介紹的這篇,使用Mask-LM的生成方式,可以達到最頂尖的FID/FVD分數,取得超越Diffusion Model的生成品質,並兼顧了生成速度,讓我們一起從MAGVIT開始,逐步理解到MAGVIT-V2,相信能讓對於最新影像生成領域有興趣的讀者,感到收穫滿滿。
Thumbnail
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/20
對於天氣的精密掌握,不僅得以改善各種生存條件,還能藉此訂定各種軍事策略,對於各種地緣政治紛爭的此刻,有其重大意義,於是各國對於快速準確的天氣預測技術,皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣,誤差可以勝過傳統超級計算機的估算,讓我們一起看看是怎麼做到的。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
2024/02/10
隨著生成式AI不斷的推陳出新,對於能有效壓縮這些豐富且大量內容的技術,變得至關重要,影響著傳輸速度與執行速度,本文的壓縮架構,能夠有效地做成專用IC,在同樣的畫質水準下,甚至能夠達成JPEG 1/3的壓縮後容量,此方法可應用在各種3D NeRF生成作品上面,各種VR與3D生成技術都必然會用到。
Thumbnail
看更多
你可能也想看
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇:帕拉贊諾夫的十段殘篇》,如何以十段殘篇,結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭,探討藝術在儀式消失的現代社會如何承接意義,並展現不羈的自由靈魂。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
本文分析導演巴里・柯斯基(Barrie Kosky)如何運用極簡的舞臺配置,將布萊希特(Bertolt Brecht)的「疏離效果」轉化為視覺奇觀與黑色幽默,探討《三便士歌劇》在當代劇場中的新詮釋,並藉由舞臺、燈光、服裝、音樂等多方面,分析該作如何在保留批判核心的同時,觸及觀眾的觀看位置與人性幽微。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
5 月將於臺北表演藝術中心映演的「2026 北藝嚴選」《海妲・蓋柏樂》,由臺灣劇團「晃晃跨幅町」製作,本文將以從舞台符號、聲音與表演調度切入,討論海妲・蓋柏樂在父權社會結構下的困境,並結合榮格心理學與馮.法蘭茲對「阿尼姆斯」與「永恆少年」原型的分析,理解女人何以走向精神性的操控、毀滅與死亡。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
《轉轉生》(Re:INCARNATION)為奈及利亞編舞家庫德斯.奧尼奎庫與 Q 舞團創作的當代舞蹈作品,結合拉各斯街頭節奏、Afrobeat/Afrobeats、以及約魯巴宇宙觀的非線性時間,建構出關於輪迴的「誕生—死亡—重生」儀式結構。本文將從約魯巴哲學概念出發,解析其去殖民的身體政治。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
本文探討了影像生成模型的多種應用,包括文字、圖像和聲音到影片的生成,涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究,分析影像生成技術的未來趨勢與挑戰,為讀者提供全面的理解與啟示。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片,以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構,並詳細探討了訓練模型的方法以及不同的影像資料集來源。
Thumbnail
本文介紹一個能將影片轉3D的AI工具,名為Luma AI。它能將影片或照片轉換成令人驚奇的3D圖像。文章介紹了Luma AI的願景、使用技術、使用方式、優缺點以及應用發想
Thumbnail
本文介紹一個能將影片轉3D的AI工具,名為Luma AI。它能將影片或照片轉換成令人驚奇的3D圖像。文章介紹了Luma AI的願景、使用技術、使用方式、優缺點以及應用發想
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
  最近遇到一些人想做音訊的合成,我回答他或許可以從圖像風格轉換中找到些靈感,我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何,對於內部訓練邏輯及結構並沒有認真的去了解,現在剛好趁此機會好好的學習一下。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
運用生成的AI圖像來激發視覺和創意,無論是生成素材、用在社交媒體上,這些圖像都能為你的的視覺帶來獨特的風格。
Thumbnail
本篇文章參考 Youtube 影片(...真實模型推薦...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!
Thumbnail
本篇文章參考 Youtube 影片(...真實模型推薦...)內容,為大家找出影片中的模型,直接作圖測試,您直接連結過去,就可以在 TensorArt 內直接使用囉!
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建
Thumbnail
這是一個簡單的工作流,可以對輸入的圖片進行3D重建
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News