首頁 > 科技要聞 > 科技> 正文

Open-Sora 2.0全面開源,20萬復(fù)刻百萬級(jí)大片!11B媲美閉源巨頭,224張GPU創(chuàng)奇跡

新智元 整合編輯:太平洋科技 發(fā)布于:2025-03-13 18:03

今天,視頻生成領(lǐng)域迎來開源革命!

Open-Sora 2.0——全新開源的SOTA(State-of-the-Art)視頻生成模型正式發(fā)布,僅用20萬美元(224張GPU)成功訓(xùn)練出商業(yè)級(jí)11B參數(shù)視頻生成大模型,性能直追HunyuanVideo和30B參數(shù)的Step-Video。

權(quán)威評(píng)測(cè)VBench及用戶偏好測(cè)試均證實(shí)其卓越表現(xiàn),在多項(xiàng)關(guān)鍵指標(biāo)上媲美動(dòng)輒數(shù)百萬美元訓(xùn)練成本的閉源模型。

此次發(fā)布全面開源模型權(quán)重、推理代碼及分布式訓(xùn)練全流程,讓高質(zhì)量視頻生成真正觸手可及,進(jìn)一步提升視頻生成的可及性與可拓展性。

GitHub開源倉(cāng)庫:https://github.com/hpcaitech/Open-Sora

體驗(yàn)與指標(biāo)雙在線

震撼視覺:Open-Sora 2.0 Demo先行

觀看宣傳片,體驗(yàn)Open-Sora 2.0的強(qiáng)大生成能力:

動(dòng)作幅度可控:可根據(jù)需求設(shè)定運(yùn)動(dòng)幅度,以更好地展現(xiàn)人物或場(chǎng)景的細(xì)膩動(dòng)作。

畫質(zhì)與流暢度:提供720p高分辨率和24 FPS流暢視頻,讓最終視頻擁有穩(wěn)定幀率與細(xì)節(jié)表現(xiàn)。

支持豐富的場(chǎng)景:從鄉(xiāng)村景色到自然風(fēng)光場(chǎng)景,Open-Sora 2.0生成的畫面細(xì)節(jié)與相機(jī)運(yùn)鏡都有出色的表現(xiàn)。

11B參數(shù)規(guī)模媲美主流閉源大模型

· 媲美HunyuanVide和30B Step-Video

Open-Sora 2.0采用11B參數(shù)規(guī)模,訓(xùn)練后在VBench人工偏好(Human Preference)評(píng)測(cè)上都取得與用高昂成本開發(fā)的主流閉源大模型同等水平。

· 用戶偏好評(píng)測(cè)

在視覺表現(xiàn)、文本一致性和動(dòng)作表現(xiàn)三個(gè)評(píng)估維度上,Open Sora在至少兩個(gè)指標(biāo)上超越了開源SOTA HunyuanVideo,以及商業(yè)模型Runway Gen-3 Alpha等。以小成本獲取了好性能。

· VBench 指標(biāo)表現(xiàn)強(qiáng)勢(shì)

根據(jù)視頻生成權(quán)威榜單VBench的評(píng)測(cè)結(jié)果,Open-Sora模型的性能進(jìn)步顯著。

從Open-Sora 1.2升級(jí)到2.0版本后,與行業(yè)領(lǐng)先的OpenAI Sora閉源模型之間的性能差距大幅縮小,從之前的4.52%縮減至僅0.69%,幾乎實(shí)現(xiàn)了性能的全面追平。

此外,Open-Sora 2.0在VBench評(píng)測(cè)中取得的分?jǐn)?shù)已超過騰訊的HunyuanVideo,以更低的成本實(shí)現(xiàn)了更高的性能,為開源視頻生成技術(shù)樹立了全新標(biāo)桿!

實(shí)現(xiàn)突破:低成本訓(xùn)練與高效能優(yōu)化

Open Sora自開源以來,憑借其在視頻生成領(lǐng)域的高效與優(yōu)質(zhì)表現(xiàn),吸引了眾多開發(fā)者的關(guān)注與參與。

然而,隨著項(xiàng)目的深入推進(jìn),也面臨著高質(zhì)量視頻生成成本居高不下的問題。

為解決這些挑戰(zhàn),Open Sora團(tuán)隊(duì)展開了一系列卓有成效的技術(shù)探索,顯著降低了模型訓(xùn)練成本。

根據(jù)估算,市面上10B以上的開源視頻模型,動(dòng)輒需要上百萬美元的單次訓(xùn)練成本,而Open Sora 2.0將該成本降低了5-10倍。

作為開源視頻生成領(lǐng)域的領(lǐng)導(dǎo)者,Open-Sora不僅繼續(xù)開源了模型代碼和權(quán)重,更開源了全流程訓(xùn)練代碼,成功打造了強(qiáng)大的開源生態(tài)圈。

據(jù)第三方技術(shù)平臺(tái)統(tǒng)計(jì),Open-Sora的學(xué)術(shù)論文引用量半年內(nèi)獲得近百引用,在全球開源影響力排名中穩(wěn)居首位,領(lǐng)先所有開源的I2V/T2V視頻生成項(xiàng)目,成為全球影響力最大的開源視頻生成項(xiàng)目之一。

模型架構(gòu)

Open-Sora 2.0延續(xù)Open-Sora 1.2的設(shè)計(jì)思路,繼續(xù)采用3D自編碼器Flow Matching訓(xùn)練框架,并通過多桶訓(xùn)練機(jī)制,實(shí)現(xiàn)對(duì)不同視頻長(zhǎng)度和分辨率的同時(shí)訓(xùn)練。

在模型架構(gòu)上,引入3D全注意力機(jī)制,進(jìn)一步提升視頻生成質(zhì)量。同時(shí),采用最新的MMDiT架構(gòu),更精準(zhǔn)地捕捉文本信息與視頻內(nèi)容的關(guān)系,并將模型規(guī)模從1B擴(kuò)展至11B。

此外,借助開源圖生視頻模型FLUX進(jìn)行初始化,大幅降低訓(xùn)練成本,實(shí)現(xiàn)更高效的視頻生成優(yōu)化。

高效訓(xùn)練方法和并行方案全開源

為了追求極致的成本優(yōu)化,Open-Sora 2.0從四個(gè)方面著手削減訓(xùn)練開銷。

首先,通過嚴(yán)格的數(shù)據(jù)篩選,確保高質(zhì)量數(shù)據(jù)輸入,從源頭提升模型訓(xùn)練效率。

采用多階段、多層次的篩選機(jī)制,結(jié)合多種過濾器,有效提升視頻質(zhì)量,為模型提供更精準(zhǔn)、可靠的訓(xùn)練數(shù)據(jù)。

其次,高分辨率訓(xùn)練的成本遠(yuǎn)超低分辨率,達(dá)到相同數(shù)據(jù)量時(shí),計(jì)算開銷可能高達(dá)40倍。

256px、5秒的視頻為例,其tokens數(shù)量約8千,而768px的視頻tokens數(shù)量接近8萬,相差10倍,再加上注意力機(jī)制的平方級(jí)計(jì)算復(fù)雜度,高分辨率訓(xùn)練的代價(jià)極其昂貴。

因此,Open-Sora優(yōu)先將算力投入到低分辨率訓(xùn)練,以高效學(xué)習(xí)運(yùn)動(dòng)信息,在降低成本的同時(shí)確保模型能夠捕捉關(guān)鍵的動(dòng)態(tài)特征。

與此同時(shí),Open-Sora優(yōu)先訓(xùn)練圖生視頻任務(wù),以加速模型收斂。

相比直接訓(xùn)練高分辨率視頻,圖生視頻模型在提升分辨率時(shí)具備更快的收斂速度,從而進(jìn)一步降低訓(xùn)練成本。

在推理階段,除了直接進(jìn)行文本生視頻(T2V),還可以結(jié)合開源圖像模型,通過文本生圖再生視頻(T2I2V),以獲得更精細(xì)的視覺效果。

最后,Open-Sora采用高效的并行訓(xùn)練方案,結(jié)合ColossalAI和系統(tǒng)級(jí)優(yōu)化,大幅提升計(jì)算資源利用率,實(shí)現(xiàn)更高效的視頻生成訓(xùn)練。為了最大化訓(xùn)練效率,我們引入了一系列關(guān)鍵技術(shù),包括:

高效的序列并行和ZeroDP,優(yōu)化大規(guī)模模型的分布式計(jì)算效率。

細(xì)粒度控制的Gradient Checkpointing,在降低顯存占用的同時(shí)保持計(jì)算效率。

訓(xùn)練自動(dòng)恢復(fù)機(jī)制,確保99%以上的有效訓(xùn)練時(shí)間,減少計(jì)算資源浪費(fèi)。

高效數(shù)據(jù)加載與內(nèi)存管理,優(yōu)化I/O,防止訓(xùn)練阻塞,加速訓(xùn)練流程。

高效異步模型保存,減少模型存儲(chǔ)對(duì)訓(xùn)練流程的干擾,提高GPU利用率。

算子優(yōu)化,針對(duì)關(guān)鍵計(jì)算模塊進(jìn)行深度優(yōu)化,加速訓(xùn)練過程。

這些優(yōu)化措施協(xié)同作用,使Open-Sora 2.0在高性能與低成本之間取得最佳平衡,大大降低了高質(zhì)量視頻生成模型的訓(xùn)練。

高壓縮比AE帶來更高速度

在訓(xùn)練完成后,Open-Sora面向未來,進(jìn)一步探索高壓縮比視頻自編碼器的應(yīng)用,以大幅降低推理成本。

目前,大多數(shù)視頻模型仍采用4×8×8的自編碼器,導(dǎo)致單卡生成768px、5秒視頻耗時(shí)近30分鐘。

為解決這一瓶頸,Open-Sora訓(xùn)練了一款高壓縮比(4×32×32)的視頻自編碼器,將推理時(shí)間縮短至單卡3分鐘以內(nèi),推理速度提升10倍。

要實(shí)現(xiàn)高壓縮比編碼器,需要解決兩個(gè)核心挑戰(zhàn):如何訓(xùn)練高壓縮但仍具備優(yōu)秀重建效果的自編碼器,以及如何利用該編碼器訓(xùn)練視頻生成模型。

針對(duì)前者,Open-Sora團(tuán)隊(duì)在視頻升降采樣模塊中引入殘差連接,成功訓(xùn)練出一款重建質(zhì)量媲美當(dāng)前開源SoTA視頻壓縮模型,且具備更高壓縮比的VAE,自此奠定了高效推理的基礎(chǔ)。

高壓縮自編碼器在訓(xùn)練視頻生成模型時(shí)面臨更高的數(shù)據(jù)需求和收斂難度,通常需要更多訓(xùn)練數(shù)據(jù)才能達(dá)到理想效果。

為解決這一問題,Open-Sora 提出了基于蒸餾的優(yōu)化策略,以提升AE(自編碼器)特征空間的表達(dá)能力,并利用已經(jīng)訓(xùn)練好的高質(zhì)量模型作為初始化,減少訓(xùn)練所需的數(shù)據(jù)量和時(shí)間。

此外,Open-Sora還重點(diǎn)訓(xùn)練圖生視頻任務(wù),利用圖像特征引導(dǎo)視頻生成,進(jìn)一步提升高壓縮自編碼器的收斂速度,使其在更短時(shí)間內(nèi)達(dá)到一定生成效果。

Open-Sora認(rèn)為,高壓縮比視頻自編碼器將成為未來降低視頻生成成本的關(guān)鍵方向。

目前的初步實(shí)驗(yàn)結(jié)果已展現(xiàn)出顯著的推理加速效果,希望能進(jìn)一步激發(fā)社區(qū)對(duì)這一技術(shù)的關(guān)注與探索,共同推動(dòng)高效、低成本的視頻生成發(fā)展。

加入Open-Sora 2.0,共同推動(dòng)AI視頻革命

本文來源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類:破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類小家電,漢美馳是這個(gè)品類的開創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷量超過3000萬臺(tái),是這個(gè)品類的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專訪漢美馳中國(guó)營(yíng)銷中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來者必須面對(duì)越來越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av