在我們熟知的2D圖像和視頻生成技術(shù)蓬勃發(fā)展之際,3D和4D的世界依然是前沿科技的「無人區(qū)」。 面對真實(shí)場景中復(fù)雜的物體運(yùn)動(dòng)和視角變化,3D、4D生成一直面臨數(shù)據(jù)和模型設(shè)計(jì)的雙重瓶頸。然而,一項(xiàng)令人振奮的突破即將改變這一現(xiàn)狀! 近日,新加坡國立大學(xué)(NUS)的研究人員提出了一種全新的生成框架——GenXD,不但能生成極具真實(shí)感的3D場景,還實(shí)現(xiàn)了從相機(jī)視角和物體圖片中「生長」出逼真的4D動(dòng)態(tài)場景。 項(xiàng)目主頁:https://gen-x-d.github.io/ 論文鏈接:https://arxiv.org/abs/2411.02319 代碼鏈接:https://github.com/HeliosZhao/GenXD GenXD能夠?qū)崿F(xiàn)單圖片靜態(tài)虛擬物體和場景的生成,實(shí)現(xiàn)高質(zhì)量的3D內(nèi)容創(chuàng)作: GenXD也能夠?qū)崿F(xiàn)稀疏圖片場景的重建,作為先驗(yàn)完善3D重建任務(wù): GenXD可以實(shí)現(xiàn)單圖4D生成,生成任意時(shí)刻以及任意視角: GenXD也能夠助力視頻插幀和可控視頻生成,使用多圖和相機(jī)路徑作為控制信號(hào): CamVid-30K 4D數(shù)據(jù)構(gòu)建 圖1 數(shù)據(jù)標(biāo)注 在動(dòng)態(tài)3D任務(wù)的發(fā)展中,缺乏大規(guī)模4D場景數(shù)據(jù)一直是一個(gè)關(guān)鍵瓶頸。這不僅影響到4D生成、動(dòng)態(tài)相機(jī)姿態(tài)估計(jì)等任務(wù),也限制了可控視頻生成等應(yīng)用的進(jìn)展。 為了解決這一難題,研究團(tuán)隊(duì)推出了一個(gè)高質(zhì)量4D數(shù)據(jù)集——CamVid-30K,為未來的動(dòng)態(tài)3D任務(wù)奠定了堅(jiān)實(shí)基礎(chǔ)。 CamVid-30K數(shù)據(jù)集的創(chuàng)建過程包括了一系列精細(xì)的步驟。首先,研究人員使用基于運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SfM)的方法來估計(jì)相機(jī)姿態(tài)。 SfM通過從多張圖像的投影中重建3D結(jié)構(gòu),其中包括特征檢測與提取、特征匹配、3D重建與相機(jī)姿態(tài)估計(jì)等關(guān)鍵步驟。 為了確保準(zhǔn)確性,特征匹配僅限于靜態(tài)場景部分,以避免動(dòng)態(tài)物體誤導(dǎo)相機(jī)的運(yùn)動(dòng)估計(jì)。 與之前方法不同的是,CamVid-30K使用了一種實(shí)例分割模型,將所有可能移動(dòng)的像素進(jìn)行分割。 相比早期的運(yùn)動(dòng)分割模塊,該實(shí)例分割方法具備更強(qiáng)的泛化能力,特別是在復(fù)雜場景下更為適用。隨后,利用改進(jìn)的Particle-SfM對靜態(tài)背景進(jìn)行處理,最終生成精準(zhǔn)的相機(jī)姿態(tài)和稀疏點(diǎn)云信息。 為進(jìn)一步篩選出真正的動(dòng)態(tài)場景,CamVid-30K還引入了運(yùn)動(dòng)強(qiáng)度指標(biāo)來識(shí)別物體的真實(shí)運(yùn)動(dòng)。通過對齊深度投影,將動(dòng)態(tài)物體在3D空間中進(jìn)行重投影,以便檢測位移,確保所包含的場景具有豐富的動(dòng)態(tài)細(xì)節(jié)。這一過程確保了CamVid-30K不僅包含相機(jī)的運(yùn)動(dòng)信息,還捕捉到了物體本身的運(yùn)動(dòng),使其成為高質(zhì)量的4D數(shù)據(jù)資源。 模型架構(gòu) 圖2 整體框架 為了實(shí)現(xiàn)更自然的3D和4D場景生成,GenXD使用隱變量擴(kuò)散模型(LDM),生成出符合相機(jī)視角和時(shí)間序列的場景圖像。此外,GenXD提出多視角-時(shí)間層,將3D和時(shí)間信息有效解耦和融合。 對于相機(jī)視角信息,GenXD使用每個(gè)視角下的Plucker Ray作為控制信號(hào)。而對于單張或多張圖像信息,GenXD使用掩碼隱變量條件(mask latent conditioning)方式利用圖像信息。 該方法在圖像條件輸入時(shí)具有三大優(yōu)勢:首先,無需對模型參數(shù)進(jìn)行修改,便可以支持任意視角輸入;其次,在多視圖生成或視頻生成過程中,無需固定條件幀的位置,確保了更大的靈活性;最后,省去了額外的條件嵌入,從而減少了模型參數(shù)量。這種設(shè)計(jì)不僅使得GenXD更高效,還可以處理復(fù)雜的多視角輸入場景。 為了實(shí)現(xiàn)3D和4D的生成,GenXD引入了多視角-時(shí)間模塊,分別對多視角信息和時(shí)間信息進(jìn)行建模。通過設(shè)計(jì)多視角層與時(shí)間層,GenXD可以在3D生成時(shí)忽略時(shí)間信息,而在4D生成時(shí)引入多視角與時(shí)間信息的融合。 此外,模型采用了alpha融合策略,利用一個(gè)可學(xué)習(xí)的融合權(quán)重來控制4D生成的多視角和時(shí)間信息融合效果,從而實(shí)現(xiàn)更精準(zhǔn)的動(dòng)態(tài)場景生成。 此外,為了解決運(yùn)動(dòng)控制的問題,GenXD將CamVid-30K數(shù)據(jù)集中提供的運(yùn)動(dòng)強(qiáng)度引入多視角-時(shí)間ResBlock中。這樣,模型可以準(zhǔn)確地表達(dá)物體運(yùn)動(dòng),從而在生成的場景中體現(xiàn)更自然的動(dòng)態(tài)效果。 實(shí)驗(yàn)結(jié)果 GenXD在單視角4D生成,相機(jī)控制的視頻生成,單視角3D生成以及少視角3D重建任務(wù)上均可用,并取得了很好的效果。 單視角4D生成 表1 單視角4D生成 對于單視角4D生成,GenXD首先生成4D視頻,然后使用生成的視頻優(yōu)化4D高斯?jié)姙R網(wǎng)絡(luò)因此,與過去基于SDS的方法相比,GenXD有更快的優(yōu)化速度,也有更好的效果。 相機(jī)控制的視頻生成 表2 相機(jī)控制的視頻生成 GenXD也與過去相機(jī)控制的運(yùn)動(dòng)生成方法進(jìn)行了比較,過去的方法只能使用單張圖片作為條件,無法實(shí)現(xiàn)視頻插幀的功能。但單圖條件下,GenXD超越過去的方法, 若使用多圖作為條件,GenXD的效果可以得到更大的提升。 單視角3D生成 表3 單視角3D生成 圖3 單視角3D生成 GenXD也在3D合成物體生成任務(wù)上進(jìn)行了評估。在此任務(wù)上,GenXD首先生成360度視頻,并利用此視頻優(yōu)化3D高斯?jié)姙R網(wǎng)絡(luò)。過去的方法在合成物體3D數(shù)據(jù)集上單獨(dú)訓(xùn)練,而GenXD使用了不同分布的真實(shí)數(shù)據(jù)和4D數(shù)據(jù)。即使如此,GenXD也與過去的方法有相近的效果。此外,從可視化結(jié)果來看,GenXD沒有過去方法常見的過度平滑和過度飽和問題。 少視角3D重建 表4 少視角3D重建 圖4 少視角3D重建 GenXD可以使用多張圖片作為條件,生成尺度一致的3D內(nèi)容。因此,GenXD可以將生成的圖片作為補(bǔ)充,提升少視角3D重建的效果。在此項(xiàng)目中,GenXD與兩個(gè)重建網(wǎng)絡(luò)(ZipNeRF和3DGS)相結(jié)合,極大地提升重建的效果。 運(yùn)動(dòng)控制 圖5 運(yùn)動(dòng)控制 數(shù)據(jù)標(biāo)注管線中提出了運(yùn)動(dòng)強(qiáng)度的概念,并且被引入到多視角-時(shí)間ResBlock里進(jìn)行運(yùn)動(dòng)控制。圖5可視化了運(yùn)動(dòng)控制的效果。使用同樣的圖片和相機(jī)條件,增大運(yùn)動(dòng)強(qiáng)度可以提高物體運(yùn)動(dòng)的速度,從而實(shí)現(xiàn)可控生成。 總結(jié) GenXD模型和CamVid-30K數(shù)據(jù)集為3D和4D生成領(lǐng)域帶來了全新突破。通過設(shè)計(jì)多視角-時(shí)間模塊并引入掩碼隱變量條件,GenXD不僅能夠解耦相機(jī)和物體的運(yùn)動(dòng),還可以支持任意數(shù)量的條件視圖輸入。 GenXD展示了在各類應(yīng)用中的強(qiáng)大適應(yīng)性,且在多項(xiàng)任務(wù)中達(dá)到了與現(xiàn)有方法相當(dāng)或更優(yōu)的表現(xiàn)。這一成果為未來的3D和4D生成任務(wù)奠定了堅(jiān)實(shí)的基礎(chǔ),預(yù)示著虛擬世界構(gòu)建與動(dòng)態(tài)場景生成的無限可能。 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選