全世界矚目之際,DeepSeek在除夕又有了新的動(dòng)作。 就在昨夜,DeepSeek正式發(fā)布了集理解與生成于一體的多模態(tài)大模型Janus-Pro。 目前,相關(guān)代碼和模型已完全開(kāi)源。 論文地址:https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf Janus-Pro采用了創(chuàng)新性自回歸框架,并實(shí)現(xiàn)了多模態(tài)理解與生成的統(tǒng)一,是對(duì)去年發(fā)布的前代模型Janus的全面升級(jí)。 它通過(guò)將視覺(jué)編碼解耦為獨(dú)立的通道,克服了先前方法的局限性,同時(shí)仍然使用單一且統(tǒng)一的Transformer架構(gòu)進(jìn)行處理。 這種解耦不僅緩解了視覺(jué)編碼器在理解和生成方面的固有角色沖突,還顯著提升了框架的靈活性。結(jié)果顯示,升級(jí)后的Janus-Pro在多模態(tài)理解和文生圖能力上都實(shí)現(xiàn)了顯著突破,同時(shí)文生圖的穩(wěn)定性也得到了提升。 與此同時(shí),DeepSeek在訓(xùn)練上一如既往地只用了非常少的算力—— 1.5B和7B這兩款模型,分別在配備16/32個(gè)計(jì)算節(jié)點(diǎn)的集群上進(jìn)行,每個(gè)節(jié)點(diǎn)裝配8張Nvidia A100(40GB)GPU,總訓(xùn)練時(shí)間約為7/14天。 網(wǎng)友實(shí)測(cè) 對(duì)于DeepSeek的又一個(gè)暴擊,外媒VentureBeat評(píng)論道:「Janus-Pro-7B的發(fā)布,讓它的影響力再次得到擴(kuò)大的同時(shí),強(qiáng)化了這一敘事——DeepSeek作為創(chuàng)新者,已經(jīng)顛覆了AI世界的既定秩序。」 網(wǎng)友們紛紛預(yù)言,DeepSeek Janus-Pro-7B模型對(duì)整個(gè)AI世界生態(tài)系統(tǒng)來(lái)說(shuō),又將造成巨震。 甚至1B模型可以直接在WebGPU的瀏覽器中就可以運(yùn)行。本地運(yùn)行模型,只需訪問(wèn)網(wǎng)站即可! 但在實(shí)際效果上,很多網(wǎng)友實(shí)測(cè)發(fā)現(xiàn)Janus-Pro的生圖效果并不總是很理想。 當(dāng)然,也有實(shí)測(cè)效果比較好的例子。 類似的,在圖像理解方面,表現(xiàn)也是有好有壞。 完整論文解讀 具體而言,Janus-Pro在以下三個(gè)方面進(jìn)行了改進(jìn):(1)采用了優(yōu)化后的訓(xùn)練策略,(2)擴(kuò)充了訓(xùn)練數(shù)據(jù)集,以及(3)實(shí)現(xiàn)了模型規(guī)模的進(jìn)一步擴(kuò)展。 Janus作為一個(gè)創(chuàng)新性模型,最初在1B參數(shù)規(guī)模上完成了驗(yàn)證。但由于訓(xùn)練數(shù)據(jù)量受限且模型容量相對(duì)不足,導(dǎo)致它存在一些局限性,主要表現(xiàn)在短提示詞圖像生成效果欠佳以及文本生圖質(zhì)量不夠穩(wěn)定等方面。 針對(duì)這些問(wèn)題,DeepSeek團(tuán)隊(duì)推出了升級(jí)版本Janus-Pro,在訓(xùn)練策略、數(shù)據(jù)規(guī)模和模型容量三個(gè)維度上都實(shí)現(xiàn)了重要突破。 Janus-Pro 系列提供了1B和7B兩種參數(shù)規(guī)模的模型,充分展示了視覺(jué)編解碼方法的可擴(kuò)展性。 多個(gè)基準(zhǔn)測(cè)試的評(píng)估結(jié)果表明,Janus-Pro在多模態(tài)理解能力和文本生圖的指令執(zhí)行性能方面都取得了顯著進(jìn)展。 具體而言,Janus-Pro-7B在多模態(tài)理解基準(zhǔn)測(cè)試MMBench上達(dá)到了79.2的評(píng)分,超越了包括Janus(69.4)、TokenFlow(68.9)和MetaMorph(75.2)在內(nèi)的現(xiàn)有最優(yōu)統(tǒng)一多模態(tài)模型。 在GenEval文本生圖指令執(zhí)行能力排行榜上,Janus-Pro-7B獲得了0.80的高分,顯著優(yōu)于Janus(0.61)、DALL-E 3(0.67)和Stable Diffusion 3 Medium(0.74)的表現(xiàn)。 模型架構(gòu) Janus-Pro架構(gòu)的核心設(shè)計(jì)理念是,實(shí)現(xiàn)多模態(tài)理解和生成任務(wù)中視覺(jué)編碼的解耦。與Janus保持一致。 具體而言,研究者采用獨(dú)立的編碼方法將原始輸入轉(zhuǎn)換為特征,隨后通過(guò)統(tǒng)一的自回歸Transformer進(jìn)行處理。 Janus-Pro的架構(gòu) 在多模態(tài)理解方面,研究者采用SigLIP編碼器,從圖像中提取高維語(yǔ)義特征。 這些特征首先從二維網(wǎng)格結(jié)構(gòu)展平為一維序列,然后通過(guò)理解適配器將圖像特征映射到大語(yǔ)言模型的輸入空間。 在視覺(jué)生成任務(wù)中,他們使用VQ分詞器將圖像轉(zhuǎn)換為離散ID序列。將這些ID序列展平為一維后,通過(guò)生成適配器將對(duì)應(yīng)的碼本嵌入映射至大語(yǔ)言模型的輸入空間。 隨后,他們將上述特征序列整合為統(tǒng)一的多模態(tài)特征序列,輸入大語(yǔ)言模型進(jìn)行處理。 除了利用大語(yǔ)言模型內(nèi)置的預(yù)測(cè)頭外,研究者還在視覺(jué)生成任務(wù)中引入了一個(gè)隨機(jī)初始化的預(yù)測(cè)頭用于圖像預(yù)測(cè)。 整個(gè)模型采用自回歸框架。 優(yōu)化訓(xùn)練策略 Janus的前代版本采用了三階段訓(xùn)練流程—— 第一階段專注于適配器和圖像頭的訓(xùn)練;第二階段進(jìn)行統(tǒng)一預(yù)訓(xùn)練,期間除理解編碼器和生成編碼器外的所有組件參數(shù)都會(huì)更新;第三階段進(jìn)行監(jiān)督微調(diào),在第二階段基礎(chǔ)上進(jìn)一步解鎖理解編碼器的參數(shù)進(jìn)行訓(xùn)練。 然而,這種訓(xùn)練策略存在某些問(wèn)題。 在第二階段中,Janus參照PixArt的方法,將文本生圖能力的訓(xùn)練分為兩個(gè)部分:首先使用ImageNet數(shù)據(jù)集進(jìn)行訓(xùn)練,以圖像類別名稱作為提示詞來(lái)生成圖像,目的是構(gòu)建像素依賴關(guān)系;其次使用標(biāo)準(zhǔn)文本生圖數(shù)據(jù)進(jìn)行訓(xùn)練。 在具體實(shí)施中,第二階段將66.67%的文本生圖訓(xùn)練步驟分配給了第一部分。 但通過(guò)深入實(shí)驗(yàn),研究者發(fā)現(xiàn)這種策略效果欠佳,且計(jì)算效率較低。為此,他們實(shí)施了兩項(xiàng)重要改進(jìn): 階段I延長(zhǎng)訓(xùn)練時(shí)間:增加第一階段的訓(xùn)練步驟,確保充分利用ImageNet數(shù)據(jù)集。研究表明,即使在大語(yǔ)言模型參數(shù)固定的情況下,模型也能有效建立像素依賴關(guān)系,并根據(jù)類別名稱生成高質(zhì)量圖像。 階段II集中重點(diǎn)訓(xùn)練:在第二階段中,摒棄了ImageNet數(shù)據(jù),轉(zhuǎn)而直接使用標(biāo)準(zhǔn)文本生圖數(shù)據(jù)來(lái)訓(xùn)練模型,使其能夠基于詳細(xì)文本描述生成圖像。這種優(yōu)化策略使第二階段能夠更高效地利用文本生圖數(shù)據(jù),顯著提升了訓(xùn)練效率和整體表現(xiàn)。 此外,研究者還對(duì)第三階段監(jiān)督微調(diào)過(guò)程中的數(shù)據(jù)配比進(jìn)行了調(diào)整,將多模態(tài)數(shù)據(jù)、純文本數(shù)據(jù)和文本生圖數(shù)據(jù)的比例從7:3:10優(yōu)化為5:1:4。 通過(guò)適度降低文本生圖數(shù)據(jù)的占比,可以發(fā)現(xiàn),這種調(diào)整既保持了強(qiáng)大的視覺(jué)生成能力,又提升了多模態(tài)理解性能。 數(shù)據(jù)Scaling 在多模態(tài)理解和視覺(jué)生成兩個(gè)方面,團(tuán)隊(duì)顯著擴(kuò)充了Janus的訓(xùn)練數(shù)據(jù)規(guī)模: • 多模態(tài)理解 在第二階段預(yù)訓(xùn)練中,他們參考了DeepSeekVL2的方法,新增了約9000萬(wàn)個(gè)訓(xùn)練樣本。這些樣本包括圖像描述數(shù)據(jù)集以及表格、圖表和文檔理解數(shù)據(jù)集。 在第三階段監(jiān)督微調(diào)中,他們進(jìn)一步引入了DeepSeek-VL2的補(bǔ)充數(shù)據(jù)集,包括表情包理解、中文對(duì)話數(shù)據(jù)和對(duì)話體驗(yàn)優(yōu)化數(shù)據(jù)集等。 這些數(shù)據(jù)的引入大幅提升了模型的綜合能力,使其能夠更好地處理多樣化任務(wù),并提供更優(yōu)質(zhì)的對(duì)話體驗(yàn)。 • 視覺(jué)生成 研究者發(fā)現(xiàn),Janus早期版本使用的真實(shí)數(shù)據(jù)存在質(zhì)量不高、噪聲較大等問(wèn)題,這往往導(dǎo)致文本生圖過(guò)程不穩(wěn)定,生成的圖像美感欠佳。 為此,在 Janus-Pro 中,他們引入了約7200萬(wàn)個(gè)人工合成的高質(zhì)量美學(xué)數(shù)據(jù)樣本,使統(tǒng)一預(yù)訓(xùn)練階段的真實(shí)數(shù)據(jù)與合成數(shù)據(jù)達(dá)到1:1的均衡比例。這些合成數(shù)據(jù)的提示詞來(lái)源于公開(kāi)資源。 實(shí)驗(yàn)結(jié)果表明,使用合成數(shù)據(jù)不僅加快了模型的收斂速度,還顯著提升了文本生圖的穩(wěn)定性和圖像的美學(xué)質(zhì)量。 模型Scaling Janus的前代版本通過(guò)1.5B參數(shù)規(guī)模的大語(yǔ)言模型,驗(yàn)證了視覺(jué)編碼解耦方法的有效性。在Janus-Pro中,研究者將模型規(guī)模擴(kuò)展至7B參數(shù)量。 研究發(fā)現(xiàn),在采用更大規(guī)模大語(yǔ)言模型后,無(wú)論是多模態(tài)理解還是視覺(jué)生成任務(wù)的損失值收斂速度都較小規(guī)模模型有了顯著提升。 這一結(jié)果進(jìn)一步證實(shí)了該技術(shù)方案具有優(yōu)秀的可擴(kuò)展性。 Janus和Janus-Pro的超參數(shù)設(shè)置 對(duì)比SOTA • 多模態(tài)理解性能 在表3中,研究者將本文提出的方法與當(dāng)前最先進(jìn)的統(tǒng)一模型和專用理解模型進(jìn)行了對(duì)比。結(jié)果顯示,Janus-Pro實(shí)現(xiàn)了整體最優(yōu)性能。 這主要得益于在多模態(tài)理解和生成任務(wù)中實(shí)現(xiàn)了視覺(jué)編碼的解耦,有效緩解了兩項(xiàng)任務(wù)間的沖突。即便與參數(shù)規(guī)模顯著更大的模型相比,Janus-Pro仍展現(xiàn)出強(qiáng)勁的競(jìng)爭(zhēng)力。 例如,Janus-Pro-7B在除GQA外的所有基準(zhǔn)測(cè)試中,都超越了TokenFlow-XL(13B)的表現(xiàn)。 • 視覺(jué)生成性能 研究者在GenEval和DPG-Bench兩個(gè)基準(zhǔn)上,評(píng)估了視覺(jué)生成性能。 如表4所示,Janus-Pro-7B在GenEval測(cè)試中達(dá)到了80.0%的整體準(zhǔn)確率,優(yōu)于所有現(xiàn)有的統(tǒng)一模型和專用生成模型,包括Transfusion(63.0%)、SD3-Medium(74.0%)和DALL-E 3(67.0%)。 這一結(jié)果充分證明了,這一方法具有更強(qiáng)的指令執(zhí)行能力。 此外,如表5所示,Janus-Pro在DPG-Bench測(cè)試中獲得了84.19分的優(yōu)異成績(jī),領(lǐng)先于所有其他方法。 這表明Janus-Pro在執(zhí)行復(fù)雜的文本生圖指令方面具有卓越的表現(xiàn)。 定性分析 在圖4中,研究者展示了多模態(tài)理解的測(cè)試結(jié)果。實(shí)驗(yàn)表明,Janus-Pro在處理不同場(chǎng)景下的輸入時(shí)展現(xiàn)出卓越的理解能力,充分體現(xiàn)了其強(qiáng)大的性能優(yōu)勢(shì)。 在圖4的下半部分,研究者展示了一系列文本生圖的結(jié)果。 盡管輸出分辨率僅為384×384,但Janus-Pro-7B生成的圖像仍然展現(xiàn)出高度的真實(shí)感和豐富的細(xì)節(jié)表現(xiàn)。 特別是在處理具有想象力和創(chuàng)造性的場(chǎng)景時(shí),Janus-Pro-7B能夠準(zhǔn)確理解提示詞中的語(yǔ)義信息,并生成邏輯合理、內(nèi)容連貫的圖像。 然而,Janus-Pro當(dāng)前仍然存在一些局限性。 在多模態(tài)理解方面,由于輸入分辨率被限制在384×384,影響了模型在OCR等需要精細(xì)識(shí)別的任務(wù)上的表現(xiàn)。 在文本生圖方面,較低的分辨率以及視覺(jué)Token編碼器引入的重建損失,導(dǎo)致生成的圖像雖然語(yǔ)義內(nèi)容豐富,但在細(xì)節(jié)表現(xiàn)上仍有不足。 典型例子是當(dāng)人臉區(qū)域在圖像中占比較小時(shí),往往會(huì)出現(xiàn)細(xì)節(jié)欠缺的情況。這些問(wèn)題有望通過(guò)提升圖像分辨率得到改善。 本文來(lái)源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。