Transformer被廣泛運用在各種生成式AI,激起了本篇作者的好奇心,是否能用Transformer學到所有先驗知識,足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式,讓有興趣的人可以深入研究。
Image本身經過Vision Transformer (DINO) 架構進行編碼,DINO由Meta開發,目前數一數二的影像編碼模型。將2D圖片編碼後可得到 (32 x 32) x 768 的Latent,藉由Cross Attention 結合NeRF / Triplane 的3D生成架構,解碼並進行體積渲染還原出數個視角的2D圖片,進行2-Norm 和 LPIPS (感知相似性) Loss的收斂。
由不同的Camera features,可以解碼產生不同視角的圖片,Inference的時候,query 總共 384 x 384 x 384 個點生成mesh (w/ marching cubes),使用的相機視角可以包含每個角度的正規化相機參數,這些參數也是當初拿來訓練的相機參數。