首頁(yè) > 科技要聞 > 科技> 正文

AI視頻邊生成邊播放!首幀延遲僅1.3秒,生成速度9.4幀/秒

量子位 整合編輯:太平洋科技 發(fā)布于:2024-12-15 00:15

AI生成視頻,邊生成邊實(shí)時(shí)播放,再不用等了!

Adobe與MIT聯(lián)手推出自回歸實(shí)時(shí)視頻生成技術(shù)——CausVid。

思路就像從下載整部電影到直接觀看流媒體的轉(zhuǎn)變,在模型生成首幀畫面后,視頻便可以即時(shí)播放,后續(xù)內(nèi)容則動(dòng)態(tài)生成并無(wú)縫銜接。

如果你用過(guò)視頻生成模型,一定對(duì)漫長(zhǎng)的等待時(shí)間記憶深刻,生成一段10秒的視頻,往往需要等待好幾分鐘才可以開始觀看。

研究團(tuán)隊(duì)表示,這一延遲的根本原因在于:傳統(tǒng)視頻生成模型普遍采用的雙向注意力機(jī)制,每一幀都需要參考前后幀的信息。

這就像寫故事時(shí)必須先構(gòu)思好整個(gè)劇情的所有細(xì)節(jié)才能動(dòng)筆,在完整視頻生成完畢前,你看不到任何畫面。

為此,他們提出了一種全新的解決方案,通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型(DiT),構(gòu)建自回歸生成模型。

實(shí)驗(yàn)中,CausVid基于自回歸生成的特性,無(wú)需額外訓(xùn)練就能支持多種應(yīng)用,生成速度和質(zhì)量均顯著超越現(xiàn)有方法。

研究團(tuán)隊(duì)還表示將很快開源基于開源模型的實(shí)現(xiàn)代碼。

用雙向教師監(jiān)督單向自回歸學(xué)生模型

如前所述,研究團(tuán)隊(duì)通過(guò)蒸餾預(yù)訓(xùn)練的雙向擴(kuò)散模型(DiT),構(gòu)建自回歸生成模型。

為了進(jìn)一步提速實(shí)現(xiàn)實(shí)時(shí)視頻生成,作者通過(guò)分布匹配蒸餾(DMD)將生成步驟從50步縮減到僅需4步。

DMD是一種擴(kuò)散模型蒸餾技術(shù),將多步擴(kuò)散模型轉(zhuǎn)換為快速的單步生成器。DMD此前已在圖像生成中取得成功,Adobe Firefly文生圖的快速模式就是基于此技術(shù)。

本次研究團(tuán)隊(duì)將其創(chuàng)新性地應(yīng)用到視頻擴(kuò)散模型中,實(shí)現(xiàn)了顯著加速。

然而,自回歸模型有一個(gè)核心難題——誤差累積。

每一幀視頻都基于之前的幀生成,早期生成的任何細(xì)微缺陷都會(huì)被放大,導(dǎo)致生成的視頻逐漸偏離預(yù)期軌跡。

為了解決這一問(wèn)題,團(tuán)隊(duì)提出了非對(duì)稱蒸餾策略。具體來(lái)說(shuō):

引入一個(gè)擁有未來(lái)信息的雙向教師模型,在蒸餾訓(xùn)練階段指導(dǎo)自回歸的單向?qū)W生模型。這種教師-學(xué)生結(jié)構(gòu)允許模型在生成未來(lái)幀時(shí)具備更強(qiáng)的精確度。

使用雙向教師模型生成的的噪聲-數(shù)據(jù)配對(duì)來(lái)預(yù)訓(xùn)練單向?qū)W生模型,提升其后蒸餾訓(xùn)練過(guò)程的穩(wěn)定性。

在訓(xùn)練過(guò)程中,針對(duì)不同時(shí)間點(diǎn)的視頻幀施加不同強(qiáng)度的噪聲,這一策略使模型能夠在測(cè)試時(shí)基于干凈的已生成幀對(duì)當(dāng)前幀進(jìn)行去噪。

通過(guò)這種創(chuàng)新性的非對(duì)稱蒸餾方法,CausVid顯著減少了自回歸模型的誤差累積問(wèn)題,并生成了更高質(zhì)量的視頻內(nèi)容。

這種非對(duì)稱蒸餾形式中,學(xué)生模型和教師模型使用了不同的架構(gòu),而這只有在DMD風(fēng)格的蒸餾中才可行。其他方法,例如漸進(jìn)式蒸餾(Progressive Distillation)或一致性模型(Consistency Distillation),都要求學(xué)生模型和教師模型使用相同的架構(gòu)。

下面是自回歸擴(kuò)散視頻模型的誤差累積示例(左圖)和CausVid結(jié)果(右圖)對(duì)比:

實(shí)驗(yàn)效果如何?

實(shí)驗(yàn)中,CausVid表現(xiàn)驚艷:

首幀生成延遲從3.5分鐘降至1.3秒,提速170倍

生成速度從0.6幀/秒提升至9.4幀/秒,提升16倍

生成質(zhì)量經(jīng)VBench和用戶調(diào)查驗(yàn)證,優(yōu)于主流模型例如Meta的MovieGen和智譜的CogVideoX

得益于單向注意力機(jī)制,CausVid完全支持在大語(yǔ)言模型中廣泛應(yīng)用的KV緩存推理技術(shù),從而顯著提升了生成效率。結(jié)合滑動(dòng)窗口機(jī)制,CausVid突破了傳統(tǒng)模型的長(zhǎng)度限制。

盡管訓(xùn)練階段僅接觸過(guò)10秒的視頻,CausVid依然能夠生成長(zhǎng)達(dá)30秒甚至更長(zhǎng)的視頻,其生成速度和質(zhì)量均顯著超越現(xiàn)有方法。

基于自回歸生成的特性,CausVid無(wú)需額外訓(xùn)練就能支持多種應(yīng)用:

圖片動(dòng)畫化:將靜態(tài)圖片自然轉(zhuǎn)化為流暢視頻,賦予畫面生命力。

實(shí)時(shí)視頻風(fēng)格轉(zhuǎn)換:如將Minecraft游戲畫面即時(shí)轉(zhuǎn)換為真實(shí)場(chǎng)景。這一技術(shù)為游戲渲染帶來(lái)全新思路:未來(lái)可能只需渲染基礎(chǔ)3D幾何信息,由AI實(shí)時(shí)補(bǔ)充紋理和光影

交互式劇情生成:用戶通過(guò)調(diào)整提示詞,實(shí)時(shí)引導(dǎo)視頻劇情發(fā)展,帶來(lái)全新的創(chuàng)作體驗(yàn)。

項(xiàng)目鏈接:https://causvid.github.io/

本文來(lái)源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av