AI生成視頻,邊生成邊實(shí)時(shí)播放,再不用等了! Adobe與MIT聯(lián)手推出自回歸實(shí)時(shí)視頻生成技術(shù)——CausVid。 思路就像從下載整部電影到直接觀看流媒體的轉(zhuǎn)變,在模型生成首幀畫面后,視頻便可以即時(shí)播放,后續(xù)內(nèi)容則動(dòng)態(tài)生成并無(wú)縫銜接。 如果你用過(guò)視頻生成模型,一定對(duì)漫長(zhǎng)的等待時(shí)間記憶深刻,生成一段10秒的視頻,往往需要等待好幾分鐘才可以開始觀看。 研究團(tuán)隊(duì)表示,這一延遲的根本原因在于:傳統(tǒng)視頻生成模型普遍采用的雙向注意力機(jī)制,每一幀都需要參考前后幀的信息。 這就像寫故事時(shí)必須先構(gòu)思好整個(gè)劇情的所有細(xì)節(jié)才能動(dòng)筆,在完整視頻生成完畢前,你看不到任何畫面。 為此,他們提出了一種全新的解決方案,通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型(DiT),構(gòu)建自回歸生成模型。 實(shí)驗(yàn)中,CausVid基于自回歸生成的特性,無(wú)需額外訓(xùn)練就能支持多種應(yīng)用,生成速度和質(zhì)量均顯著超越現(xiàn)有方法。 研究團(tuán)隊(duì)還表示將很快開源基于開源模型的實(shí)現(xiàn)代碼。 用雙向教師監(jiān)督單向自回歸學(xué)生模型 如前所述,研究團(tuán)隊(duì)通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型(DiT),構(gòu)建自回歸生成模型。 為了進(jìn)一步提速實(shí)現(xiàn)實(shí)時(shí)視頻生成,作者通過(guò)分布匹配蒸餾(DMD)將生成步驟從50步縮減到僅需4步。 DMD是一種擴(kuò)散模型蒸餾技術(shù),將多步擴(kuò)散模型轉(zhuǎn)換為快速的單步生成器。DMD此前已在圖像生成中取得成功,Adobe Firefly文生圖的快速模式就是基于此技術(shù)。 本次研究團(tuán)隊(duì)將其創(chuàng)新性地應(yīng)用到視頻擴(kuò)散模型中,實(shí)現(xiàn)了顯著加速。 然而,自回歸模型有一個(gè)核心難題——誤差累積。 每一幀視頻都基于之前的幀生成,早期生成的任何細(xì)微缺陷都會(huì)被放大,導(dǎo)致生成的視頻逐漸偏離預(yù)期軌跡。 為了解決這一問(wèn)題,團(tuán)隊(duì)提出了非對(duì)稱蒸餾策略。具體來(lái)說(shuō): 引入一個(gè)擁有未來(lái)信息的雙向教師模型,在蒸餾訓(xùn)練階段指導(dǎo)自回歸的單向?qū)W生模型。這種教師-學(xué)生結(jié)構(gòu)允許模型在生成未來(lái)幀時(shí)具備更強(qiáng)的精確度。 使用雙向教師模型生成的的噪聲-數(shù)據(jù)配對(duì)來(lái)預(yù)訓(xùn)練單向?qū)W生模型,提升其后蒸餾訓(xùn)練過(guò)程的穩(wěn)定性。 在訓(xùn)練過(guò)程中,針對(duì)不同時(shí)間點(diǎn)的視頻幀施加不同強(qiáng)度的噪聲,這一策略使模型能夠在測(cè)試時(shí)基于干凈的已生成幀對(duì)當(dāng)前幀進(jìn)行去噪。 通過(guò)這種創(chuàng)新性的非對(duì)稱蒸餾方法,CausVid顯著減少了自回歸模型的誤差累積問(wèn)題,并生成了更高質(zhì)量的視頻內(nèi)容。 這種非對(duì)稱蒸餾形式中,學(xué)生模型和教師模型使用了不同的架構(gòu),而這只有在DMD風(fēng)格的蒸餾中才可行。其他方法,例如漸進(jìn)式蒸餾(Progressive Distillation)或一致性模型(Consistency Distillation),都要求學(xué)生模型和教師模型使用相同的架構(gòu)。 下面是自回歸擴(kuò)散視頻模型的誤差累積示例(左圖)和CausVid結(jié)果(右圖)對(duì)比: 實(shí)驗(yàn)效果如何? 實(shí)驗(yàn)中,CausVid表現(xiàn)驚艷: 首幀生成延遲從3.5分鐘降至1.3秒,提速170倍 生成速度從0.6幀/秒提升至9.4幀/秒,提升16倍 生成質(zhì)量經(jīng)VBench和用戶調(diào)查驗(yàn)證,優(yōu)于主流模型例如Meta的MovieGen和智譜的CogVideoX 得益于單向注意力機(jī)制,CausVid完全支持在大語(yǔ)言模型中廣泛應(yīng)用的KV緩存推理技術(shù),從而顯著提升了生成效率。結(jié)合滑動(dòng)窗口機(jī)制,CausVid突破了傳統(tǒng)模型的長(zhǎng)度限制。 盡管訓(xùn)練階段僅接觸過(guò)10秒的視頻,CausVid依然能夠生成長(zhǎng)達(dá)30秒甚至更長(zhǎng)的視頻,其生成速度和質(zhì)量均顯著超越現(xiàn)有方法。 基于自回歸生成的特性,CausVid無(wú)需額外訓(xùn)練就能支持多種應(yīng)用: 圖片動(dòng)畫化:將靜態(tài)圖片自然轉(zhuǎn)化為流暢視頻,賦予畫面生命力。 實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)換:如將Minecraft游戲畫面即時(shí)轉(zhuǎn)換為真實(shí)場(chǎng)景。這一技術(shù)為游戲渲染帶來(lái)全新思路:未來(lái)可能只需渲染基礎(chǔ)3D幾何信息,由AI實(shí)時(shí)補(bǔ)充紋理和光影 交互式劇情生成:用戶通過(guò)調(diào)整提示詞,實(shí)時(shí)引導(dǎo)視頻劇情發(fā)展,帶來(lái)全新的創(chuàng)作體驗(yàn)。 項(xiàng)目鏈接:https://causvid.github.io/ 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。