論文整體架構:

付費限定

用一張圖片生成多視角3D，LRM by Hong et al.

更新於 2025/01/07發佈於 2024/01/08閱讀時間約 3 分鐘

Transformer被廣泛運用在各種生成式AI，激起了本篇作者的好奇心，是否能用Transformer學到所有先驗知識，足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式，讓有興趣的人可以深入研究。

論文整體架構:

Image本身經過Vision Transformer (DINO) 架構進行編碼，DINO由Meta開發，目前數一數二的影像編碼模型。將2D圖片編碼後可得到 (32 x 32) x 768 的Latent，藉由Cross Attention 結合NeRF / Triplane 的3D生成架構，解碼並進行體積渲染還原出數個視角的2D圖片，進行2-Norm 和 LPIPS (感知相似性) Loss的收斂。

由不同的Camera features，可以解碼產生不同視角的圖片，Inference的時候，query 總共 384 x 384 x 384 個點生成mesh (w/ marching cubes)，使用的相機視角可以包含每個角度的正規化相機參數，這些參數也是當初拿來訓練的相機參數。

許多準備好的Ground True Views，用來收斂模型的Loss

以行動支持創作者！付費即可解鎖

本篇內容共 1577 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

留言

留言分享你的想法！

無限智慧學院的沙龍

95會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

無限智慧學院的沙龍的其他內容

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

這次要介紹的這篇，使用Mask-LM的生成方式，可以達到最頂尖的FID/FVD分數，取得超越Diffusion Model的生成品質，並兼顧了生成速度，讓我們一起從MAGVIT開始，逐步理解到MAGVIT-V2，相信能讓對於最新影像生成領域有興趣的讀者，感到收穫滿滿。

2024/02/28

Mask-LM 生成影片能力趨近完美 with MAGVIT-V2 by Google & CMU Yu et al.

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

對於天氣的精密掌握，不僅得以改善各種生存條件，還能藉此訂定各種軍事策略，對於各種地緣政治紛爭的此刻，有其重大意義，於是各國對於快速準確的天氣預測技術，皆十分有興趣。本文介紹Google Research 的研究利用AI來預測天氣，誤差可以勝過傳統超級計算機的估算，讓我們一起看看是怎麼做到的。

2024/02/20

快速準確AI預測全球天氣 with GraphCast by Google Research Lam et al.

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

隨著生成式AI不斷的推陳出新，對於能有效壓縮這些豐富且大量內容的技術，變得至關重要，影響著傳輸速度與執行速度，本文的壓縮架構，能夠有效地做成專用IC，在同樣的畫質水準下，甚至能夠達成JPEG 1/3的壓縮後容量，此方法可應用在各種3D NeRF生成作品上面，各種VR與3D生成技術都必然會用到。

2024/02/10

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

看更多

你可能也想看

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

每年4月、5月都是最多稅要繳的月份，當然大部份的人都是有機會繳到「綜合所得稅」，只是相當相當多人還不知道，原來繳給政府的稅！可以透過一些有活動的銀行信用卡或電子支付來繳，從繳費中賺一點點小確幸！就是賺個１%~2%大家也是很開心的，因為你們把沒回饋變成有回饋，就是用卡的最高境界所得稅線上申報

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

阿千看世界

2025年綜合所得稅繳稅教學：線上申報、信用卡回饋、拆單攻略！

#2025所得稅#綜合所得稅#繳稅有回饋

2025/05/03

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

全球科技產業的焦點，AKA 全村的希望 NVIDIA，於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1，實際日曆期間為今年二到四月)，交出了打敗了市場預期的成績單。然而，在銷售持續高速成長的同時，川普政府加大對於中國的晶片管制......

#NVDA#NVIDIA#輝達

2025/06/18

科技巨頭解碼

NVDA 25Q1 財報 - 扣除中國因素，輝達的前方仍然沒有烏雲 | #276

#NVDA#NVIDIA#輝達

2025/06/18

仁和的論文整理

探索41個讓你驚豔的AI影像生成模型論文

本文探討了影像生成模型的多種應用，包括文字、圖像和聲音到影片的生成，涵蓋了GAN、Transformer和Diffusion等技術。透過回顧相關研究，分析影像生成技術的未來趨勢與挑戰，為讀者提供全面的理解與啟示。

2024/08/13

2024/08/13

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

此篇調查論文探討了Diffusion模型在文字、圖片和聲音轉換為影片，以及影片衍生和編輯的應用類型。作者也介紹了U-Net架構和Vision Transformer等生成圖像架構，並詳細探討了訓練模型的方法以及不同的影像資料集來源。

#模型#視頻#數據

2024/07/05

仁和的論文整理

AI影像論文(06)：AI如何生成影片?Diffusion模型生成影片方法調查

#模型#視頻#數據

2024/07/05

iFormosa TechWave

Luma AI 顛覆視覺體驗！3D生成如此簡單

本文介紹一個能將影片轉3D的AI工具，名為Luma AI。它能將影片或照片轉換成令人驚奇的3D圖像。文章介紹了Luma AI的願景、使用技術、使用方式、優缺點以及應用發想

#3D#拍攝#分享

2024/05/29

iFormosa TechWave

Luma AI 顛覆視覺體驗！3D生成如此簡單

#3D#拍攝#分享

2024/05/29

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

　　最近遇到一些人想做音訊的合成，我回答他或許可以從圖像風格轉換中找到些靈感，我才突然想起我對於這部分的認知只止於知道他能做什麼及結果大概如何，對於內部訓練邏輯及結構並沒有認真的去了解，現在剛好趁此機會好好的學習一下。

#AI#StyleTransfer#Pytorch

2024/05/06

貓貓學習筆記

圖像風格轉換(一)-風格轉換初探

#AI#StyleTransfer#Pytorch

2024/05/06

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

原來可以這樣做沙龍

從概念到實踐，教你如何運用AI生成來激發視覺和創意

運用生成的AI圖像來激發視覺和創意，無論是生成素材、用在社交媒體上，這些圖像都能為你的的視覺帶來獨特的風格。

#分享#創作#AI

2024/04/24

YEN Lo的沙龍

AI繪圖-Bing-使用Bing圖片生成原圖並利用Tensor Art創造不同風格的圖像

這邊紀錄使用Bing images create 生成原圖並利用Tensor art

#Tensor#Bing#QR Code

2024/02/14

YEN Lo的沙龍

AI繪圖-Bing-使用Bing圖片生成原圖並利用Tensor Art創造不同風格的圖像

這邊紀錄使用Bing images create 生成原圖並利用Tensor art

#Tensor#Bing#QR Code

2024/02/14

AI繪圖 18+/R 實驗室

TensorArt 模型推薦 - 真實模型

本篇文章參考 Youtube 影片(...真實模型推薦...)內容，為大家找出影片中的模型，直接作圖測試，您直接連結過去，就可以在 TensorArt 內直接使用囉!

#AI繪圖#AI繪圖研究日誌#TensorArt

2024/01/28

AI繪圖 18+/R 實驗室

TensorArt 模型推薦 - 真實模型

本篇文章參考 Youtube 影片(...真實模型推薦...)內容，為大家找出影片中的模型，直接作圖測試，您直接連結過去，就可以在 TensorArt 內直接使用囉!

#AI繪圖#AI繪圖研究日誌#TensorArt

2024/01/28

Frank Plaza

ComfyUI 研究 - Stablezero123

這是一個簡單的工作流，可以對輸入的圖片進行3D重建

2024/01/24

Frank Plaza

ComfyUI 研究 - Stablezero123

這是一個簡單的工作流，可以對輸入的圖片進行3D重建

2024/01/24

cc的沙龍

如何製作和使用 3D 模型 - 國外網站分享

3D 模型是用來表示物體的多邊形，可以是現實世界的實體或虛構的東西。本文分享國外網站如何製作 3D 模型的多種方法，包括文字轉 3D 模型、圖像轉 3D 模型和掃描現實物體轉 3D 模型等。歡迎想要製作或使用 3D 模型的你參考!

#3D#模型#分享

2024/01/23

cc的沙龍

如何製作和使用 3D 模型 - 國外網站分享

#3D#模型#分享

2024/01/23

無限智慧學院的沙龍

用一張圖片生成多視角3D，LRM by Hong et al.

#openLRM#Transformer#ViT

2024/01/08

無限智慧學院的沙龍

用一張圖片生成多視角3D，LRM by Hong et al.

#openLRM#Transformer#ViT

2024/01/08

追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News