付費限定

緊湊型神經網路壓縮技術 for NeRF by Nvidia Takikawa et al.

2024/02/10閱讀時間約 7 分鐘

隨著生成式AI與NeRF技術的崛起，會有越來越多的圖像與3D內容有快速讀取與容量壓縮的需求，這篇文章提出了一個很好的解法，同時，論文也向我們展示了神經網路壓縮技術的設計思路，值得我們借鑒與應用在其他場合，我將嘗試為大家進行深入解析。

論文架構解析:

藉由兩個不同的Hash，將Vertices均勻對應到 Indexing / Feature codebook上面，藉由倒傳遞收斂來決定Feature Codebook內需要存放的關鍵訊息，也能藉由倒傳遞決定N_p Indexing的位置，傳統的做法沒有Indexing這個部分，即N_p=1，好處是所需要的容量較低，但會導致Hash容易發生碰撞衝突，即兩個相差比較遠的Feature，會撞一起，降低了壓縮模型的表達能力，導致無法精進壓縮率。

本文嘗試使用N_pProbing 索引，付出一些代價以進一步精進壓縮比例，下圖中N_c維度由Hash2直接定址，N_p維度由神經網路去學，取最大值來當作定址目標，倒傳遞收斂的時候使用Softmax輸出，然後N_f維度藉由Hash 和 N_p定址結果，共同決定。

我會認為Index Probing Range N_p是本篇論文最重要的參數，可以促進人工智慧去重新定址，做Clustering並且抽取特徵，保留這個彈性，可以解決Hash強碰的問題，能大大的利用神經網路學習的優勢，缺點是增加所需容量的低銷，不過能換到的好處更多。

參數越多壓縮比例越差，但是PSNR保真度越好，這裡提供各種參數方便使用者壓縮的時候調控品質與壓縮比例之間的互換，相信Compact NGP會是目前最佳的3D生成模型如NeRF的最佳夥伴，也會是大型3D全視角VR的首選，另外，本文的壓縮方法對於8K圖片也有很大的壓縮率斬獲，期待本篇作者能持續的精進改良。

論文架構解析:

以行動支持創作者！付費即可解鎖

本篇內容共 2868 字、0 則留言，僅發佈於人工智慧宇宙你目前無法檢視以下內容，可能因為尚未登入，或沒有該房間的查看權限。

無限智慧學院的沙龍人工智慧宇宙AI論文詳解

無限智慧學院的沙龍

96會員

128內容數

帶你用上帝視角，針對市面上具有高度價值的影片/論文/書籍，用東方取象，與西方邏輯辯證的角度同時出發，跟著我一起來探討宇宙萬事萬物的本質，隨時隨地都可以來一場說走就走的思維旅行。作者在台積電 / 聯發科等科技產業有累計10年的資歷，近期對於人工智慧，東方易經，西方辯證邏輯，還有佛法向內求有深度興趣。

留言0

查看全部

發表第一個留言支持創作者！

無限智慧學院的沙龍的其他內容

隨心所欲的生成短影音，Zero-Shot VideoPoet by Google Research

Google Research 在2024年給出了令人滿意的新年禮物，這篇論文內的方法，若持續發展下去，可望顛覆整個影音創作產業，未來製作生動的影音動畫，不再是令人頭痛與耗費心力的一件事情，是不是很酷，讓我們一起看看到底是如何做到的。

#GoogleResearch #文圖音生短影音 #VideoPoet

一起探索文生語音的奧術，OpenVoice 開源MyShell.ai後臺模型

要如何做到無須任何額外訓練樣本就能做到"跨語言"的語音生成，這聽起來很不可思議對吧? 但這就是本篇論文取得的成就，不僅如此，該有的功能，如調整情感，口音節奏，停頓語調這些功能也不在話下。跟著我一起用探秘還有獨立思考的眼光來分析這篇論文，這會是很有趣的旅程。

#AI論文詳解 #OpenVoice #MyshellAI

用一張圖片生成多視角3D，LRM by Hong et al.

Transformer被廣泛運用在各種生成式AI，激起了本篇作者的好奇心，是否能用Transformer學到所有先驗知識，足以讓它由一張2D圖片還原3D物件。本篇也從Github上面找到由ZexinHe開源的LRM實作程式，讓有興趣的人可以深入研究。

#openLRM #Transformer #ViT

多模態詠唱外掛模型，輕量靈活有效，IP-Adapter by Hu & Jun et al

文字生成圖片的擴散生成模型，實際應用上並沒有想像中好用，原因在於，文字能夠乘載的訊息量太少，要產生好的生成結果一定程度仰賴特定的Prompt描述方法，如DALL-E3使用GPT4不斷增加描述的細節，讓文生圖的結果更好，有沒有更有效率的方式呢?

#IPAdapter #DiffusionModel #圖文生圖

8個專家小模型勝過ChatGPT3，SMoE論文導讀 for Mixtral-8x7B

知名的 Mistral AI 團隊近期丟出了使用 SMOE技術搭建的Mixtral-8x7B，能用較小的運算資源與參數量，打敗ChatGPT3的考試成績。本文藉由兩篇SMOE論文的導讀，抽取其中的核心概念，試圖打開技術的神秘面紗。

#Mixtral8x7b #SMOE #SparseMOE

對抗擴散生成蒸餾(ADD) 讓生成模型快又有效

Stability AI在圖片/影片/聲音生成領域貢獻了不少心力，近期提出了更加高效率的對抗生成蒸餾方法，只需進行一步計算，便能打敗LCM需要4步計算的結果，來看看具體是如何做到的。

#對抗生成模型 #對抗生成蒸餾 #StabilityAI

「天天秋嗨嗨」：vocus 秋季徵文，五大主題 & 獎品登場！

這個秋，Chill 嗨嗨！穿搭美美去賞楓，裝備款款去露營⋯⋯你的秋天怎麼過？秋日 To Do List 等你分享！秋季全站徵文，我們準備了五個創作主題，參賽還有機會獲得「火烤兩用鍋」，一起來看看如何參加吧～

#天天秋嗨嗨 #秋季旅遊 #秋季穿搭

MimiVsJames的美股投資分享

2024/11/03

美國大選『終局之戰』（Endgame）即將展開，美股將迎來新世紀？（上篇：模型推導寶座花落誰家？）

美國總統大選只剩下三天，我們觀察一整週民調與金融市場的變化（包含賭局），到本週五下午3:00前為止，誰是美國總統幾乎大概可以猜到60-70%的機率，本篇文章就是以大選結局為主軸來討論近期甚至到未來四年美股可能的改變

#美股 #美國大選 #投資理財

矮袋鼠律師的沙龍

2024/11/03

如果這個世界有神，那祂一定姓李名相赫｜矮袋鼠律師

Faker昨天真的太扯了，中國主播王多多點評的話更是精妙，分享給各位王多多的點評「Faker是我們的處境，他是LPL永遠繞不開的一個人和話題，所以我們特別渴望在決賽跟他相遇，去直面我們的處境。我們曾經稱他為最高的山，最長的河，以為山海就是盡頭，可是Faker用他28歲的年齡...

#Faker #電競 #運動

傻剛的胡思亂想

2024/02/01

冬日山行：沒有緊湊日程的靈魂之旅

趁著身體還留有山上的節奏的時候，把一些還鮮明的記憶給烙印下來。這次上山完成了一個埋藏、鋪陳、醞釀很久很久的心願。不是那種很爽快的高峰經驗，而是那種「呼......」長吁一口氣之後的，深深地滿足感。第三天晚上我就和伙伴說，這趟山行已經沒有遺憾了。

#生活 #自然 #孩在自然

香奈鵝小姐影劇間

2024/01/30

古裝劇推薦：蓮花樓緊湊武俠懸疑探案，李蓮花的「放下」哲學

2023年與長月燼明並列最喜歡的中國古裝劇！結合武俠與懸疑探案，劇情從頭到尾都緊湊，三主角智商都在線，是可以並肩同行的一家人（？）而且男主真的是集結嘴砲系＋破碎系於一身，超愛這種一本正經說胡話的風格！　一開始因為江湖門派術語有點黑人問號，進入狀況之後，就對李蓮花這個人再也移不開眼睛，因為

#蓮花樓 #成毅 #古裝劇

喬以思的沙龍

2023/12/20

以緊湊城市的理念，全面．集中地促進永續城市發展~新潟県上越市

上越市位於新潟縣西南部面向日本海，為新潟縣第三大城市，也是上越地方的中心都市，自古以來作為交通樞紐而繁榮，至今仍是重要的港口的直江津港、多條高速公路及電車鐵道交會，與三大都會區幾乎等距，是擁有發達的陸路和海上交通網絡的領先區域城市之一。市中心有關川、保倉川等流經高田平原，廣闊的平原周圍有米山山脈、

#永續城市 #緊湊城市 #地方自治區

換日線的沙龍

2023/08/20

精采、緊湊，讓人目不轉睛！／《監獄醫生》（닥터 프리즈너）

復仇的故事經常需要非常天馬行空的想像，不去論究「這到底合不合理」或是「現實真的可能發生嗎？」，只需要說服聽故事的人相信「這世界總是有正義出現的可能」，即使只是「一場戲／一場夢」也至少可以暢快地舒發內心對於現實無能為力的憤怒！從一個人的武林到一群人的江湖，《監獄醫生》會讓你知道「什麼是停不下來的追劇！

#南宮珉 #醫生 #電視

換日線的沙龍

2023/06/09