春節(jié)前這一波大模型瘋狂加更,字節(jié)也出手了,最新登場(chǎng)的是豆包全新基礎(chǔ)模型—— Doubao-1.5-pro。 豆包“演技精湛”的真人級(jí)語(yǔ)音對(duì)話功能剛刷屏,僅隔一天,背后基礎(chǔ)模型字節(jié)也給抖落出來(lái)了。 基礎(chǔ)模型登場(chǎng),背后團(tuán)隊(duì)不僅放出細(xì)節(jié)滿滿的技術(shù)博客,還親自給劃了重點(diǎn): MoE架構(gòu),僅用較小激活參數(shù),就能達(dá)到世界一流模型性能,性能杠桿達(dá)到7倍 數(shù)據(jù)生產(chǎn)體系高度自主,不使用任何其他模型數(shù)據(jù) 多模態(tài)能力全面提升 更妙的是,Doubao-1.5-pro官宣即上線,火山方舟體驗(yàn)網(wǎng)址同步開(kāi)放,同時(shí)也在豆包APP灰度上線。 這還等什么,當(dāng)然是第一時(shí)間上手實(shí)測(cè)啦。 就著技術(shù)博客,我們也來(lái)扒一扒背后更多技術(shù)細(xì)節(jié),一起往下看~ 實(shí)測(cè)豆包1.5系列 Talk is cheap,show me the product。 官方提到,Doubao-1.5-pro模型綜合能力有顯著增強(qiáng),在知識(shí)、代碼、推理、中文等多個(gè)權(quán)威測(cè)評(píng)基準(zhǔn)上都達(dá)到SOTA。 那么首先,來(lái)看現(xiàn)在大模型圈最卷的推理能力。 推理能力實(shí)測(cè) 先簡(jiǎn)單來(lái)道邏輯判斷題,看看Doubao-1.5-pro能不能接住。 某校食堂發(fā)生了一起嚴(yán)重的食物中毒事故,關(guān)于事故的原因,有如下四種說(shuō)法:甲:事故是由食物過(guò)期引起的乙:如果事故是由食物過(guò)期引起的,那么食堂管理方面一定存在著監(jiān)管不到位的現(xiàn)象丙:事故確實(shí)是由食物過(guò)期引起,但食堂管理方面并不存在監(jiān)管不到位的現(xiàn)象�。菏鹿什皇怯墒澄镞^(guò)期引起的,但食堂管理方面存在監(jiān)管不到位的現(xiàn)象 如果上述四種說(shuō)法中只有一種是真的,由此可以推出A. 乙為真,且食堂存在監(jiān)管不到位的現(xiàn)象B. 乙為真,但食堂沒(méi)有存在監(jiān)管不到位的現(xiàn)象C. 甲為真D. 丙為真 Doubao-1.5-pro的回答是醬嬸的: 思路梳理得非常清晰,答案也是準(zhǔn)確的。 加大一點(diǎn)難度,給豆包上點(diǎn)計(jì)算量,結(jié)果又會(huì)如何? 一個(gè)外星人來(lái)到地球后,第一天有相等的可能選擇以下四件事中的一件完成:1、自我毀滅;2、分裂成兩個(gè)外星人;3、分裂成三個(gè)外星人;4、什么都不做。此后每天,每個(gè)外星人均會(huì)做一次選擇,且彼此之間相互獨(dú)立,求地球上最終沒(méi)有外星人的概率 來(lái)看Doubao-1.5-pro的應(yīng)對(duì): 相同的提示詞下,Claude 3.5 Sonnet一通輸出,卻在最后給答案的時(shí)候翻車了: 這一題,Doubao-1.5-pro也順利過(guò)關(guān)。 值得一提的是,豆包大模型團(tuán)隊(duì)提到,Doubao-1.5-pro還經(jīng)過(guò)了視覺(jué)、語(yǔ)音等多模態(tài)能力的“特訓(xùn)”。那么最后,我們?cè)偌釉囈坏缊D片推理題: 看來(lái)跟豆包用表情包聊天,是不成問(wèn)題了(doge)。 代碼能力實(shí)測(cè) 測(cè)完推理能力,再來(lái)看看程序員們最關(guān)心的代碼能力。 第一題,來(lái)個(gè)當(dāng)時(shí)被o1-pro直接拒絕回答的離譜需求: 只用HTML代碼復(fù)刻經(jīng)典游戲《毀滅戰(zhàn)士》。 Doubao-1.5-pro也表示:這不合理。 盡管如此,Doubao-1.5-pro還是試圖滿足我們“五彩斑斕的黑”的需求,主動(dòng)提出解決方案: 可以使用HTML結(jié)合CSS和JavaScript來(lái)創(chuàng)建一個(gè)簡(jiǎn)化的、具有《毀滅戰(zhàn)士》風(fēng)格元素的小游戲示例。 運(yùn)行這些代碼,就能得到一個(gè)簡(jiǎn)單的射擊小游戲界面,盡管認(rèn)真要跑起來(lái)還需要微調(diào)細(xì)節(jié),但大體框架并沒(méi)有什么問(wèn)題。 端到端語(yǔ)音功能 語(yǔ)音多模態(tài)方面,在Doubao-1.5-pro的加持下,豆包APP已經(jīng)全量上線了新版實(shí)時(shí)語(yǔ)音對(duì)話功能。 未使用任何其他模型蒸餾數(shù)據(jù) 一波實(shí)測(cè)下來(lái),豆包大模型1.5 Pro不愧是壓軸出場(chǎng)的角色,綜合能力沒(méi)有讓大家伙兒失望。 而多個(gè)公開(kāi)評(píng)測(cè)基準(zhǔn)上的亮眼成績(jī),也從更客觀的角度體現(xiàn)了Doubao-1.5-pro現(xiàn)在的身位。 可以看到,Doubao-1.5-pro已經(jīng)達(dá)到業(yè)界領(lǐng)先水平,在中文能力上,更是超過(guò)了GPT-4o和Claude 3.5 Sonnet等國(guó)外大模型。 另外,在視覺(jué)和語(yǔ)音等多模態(tài)能力上,Doubao-1.5-pro同樣取得了亮眼的成績(jī)。 比如在視覺(jué)推理任務(wù)中,Doubao-1.5-pro的表現(xiàn)不遜色于GPT-4o: 值得關(guān)注的是,這一次模型上新,豆包大模型團(tuán)隊(duì)也在官方博客中釋出了更多技術(shù)細(xì)節(jié)。 接下來(lái),咱們就來(lái)劃拉劃拉重點(diǎn)。 性能杠桿提升至7倍 從Tokens使用量來(lái)看,截至12月中旬,豆包大模型的日均Tokens使用量已經(jīng)超過(guò)4萬(wàn)億,印證了Doubao API和豆包產(chǎn)品的海量推理需求。 為此,豆包團(tuán)隊(duì)從預(yù)訓(xùn)練階段就堅(jiān)持訓(xùn)練-推理一體設(shè)計(jì),以平衡模型性能和推理成本。 具體而言,Doubao-1.5-pro采用稀疏MoE架構(gòu),團(tuán)隊(duì)通過(guò)對(duì)稀疏度Scaling Law的研究,確定了性能和效率比較平衡的稀疏比例,并根據(jù)MoE Scaling Law確定小參數(shù)量激活的模型就能達(dá)到世界一流模型的性能。 在預(yù)訓(xùn)練階段,僅用較小參數(shù)激活的MoE模型,性能即可超過(guò)Llama3.1-405B等超大稠密預(yù)訓(xùn)練模型。 同時(shí),在完全相同的部分訓(xùn)練數(shù)據(jù)(9T tokens)對(duì)比驗(yàn)證下,激活參數(shù)僅為1/7稠密模型參數(shù)量的MoE模型,表現(xiàn)超過(guò)了稠密模型,性能杠桿提升可達(dá)7倍。 此前,業(yè)界在這一新能杠桿上的普遍水平為不到3倍。比如IBM的Grantie系列模型中,800M激活的MoE模型性能可以接近2B總參數(shù)的稠密模型,性能比值約為2.5倍。 高效后訓(xùn)練流程 在近來(lái)大模型們集中精力卷的PostTraining上,豆包大模型團(tuán)隊(duì)構(gòu)建了一套高度自主的數(shù)據(jù)生產(chǎn)體系。 其中最值得關(guān)注的一點(diǎn)是:不使用任何其他模型的蒸餾數(shù)據(jù),確保數(shù)據(jù)來(lái)源的獨(dú)立性和可靠性。 SFT階段,團(tuán)隊(duì)開(kāi)發(fā)了一套算法驅(qū)動(dòng)的訓(xùn)練數(shù)據(jù)優(yōu)化系統(tǒng),涵蓋訓(xùn)練數(shù)據(jù)多樣性優(yōu)化,以及精確人題匹配功能,并結(jié)合模型自演進(jìn)(Self-evolve)技術(shù),提升數(shù)據(jù)標(biāo)注的多樣性和難度,形成了模型性能提升的良性循環(huán)。 獎(jiǎng)勵(lì)模型(Reward Model)部分,團(tuán)隊(duì)建立了包含prompt分布優(yōu)化、response篩選、多輪迭代和active learning的完整數(shù)據(jù)生產(chǎn)pipeline。 在此基礎(chǔ)之上,為了實(shí)現(xiàn)模型在數(shù)學(xué)、編程、知識(shí)、對(duì)話等多維度能力的均衡提升,團(tuán)隊(duì)通過(guò)深度融合Verlfier和獎(jiǎng)勵(lì)模型,構(gòu)建了統(tǒng)一的Reward框架。 此外,基于梯度篩選和迭代過(guò)濾技術(shù),豆包大模型團(tuán)隊(duì)用25%的數(shù)據(jù),能夠達(dá)到近似全量的訓(xùn)練效果。 強(qiáng)化學(xué)習(xí)(RL)階段,團(tuán)隊(duì)攻克了價(jià)值函數(shù)訓(xùn)練難點(diǎn),實(shí)現(xiàn)了token-wise穩(wěn)定建模,在高難度任務(wù)上的性能提升超過(guò)10個(gè)絕對(duì)點(diǎn)。并通過(guò)對(duì)比學(xué)習(xí)方法,有效提升了模型表現(xiàn),顯著緩解了reward hacking問(wèn)題。在數(shù)據(jù)、算法、模型層面全面實(shí)現(xiàn)了 Scaling 。 字節(jié)最擅長(zhǎng)的AB Test經(jīng)驗(yàn)也被引入了豆包大模型的Post-Training全流程�;诙拱拇笠�(guī)模用戶反饋,研發(fā)團(tuán)隊(duì)構(gòu)建了從問(wèn)題發(fā)現(xiàn)、數(shù)據(jù)挖掘、人機(jī)結(jié)合標(biāo)注到快速迭代的閉環(huán)優(yōu)化系統(tǒng),以讓用戶數(shù)據(jù)飛輪能持續(xù)作用于模型實(shí)際使用體驗(yàn)的提升。 One More Thing 另外,豆包官方還低調(diào)透露了一嘴“深度思考模式”的消息。 研發(fā)團(tuán)隊(duì)在完全不使用其他模型數(shù)據(jù)的條件下,通過(guò)RL算法突破和工程優(yōu)化,充分發(fā)揮test time scaling的算力優(yōu)勢(shì),已經(jīng)實(shí)現(xiàn)了豆包深度思考模型。 團(tuán)隊(duì)表示,隨著RL的持續(xù),模型能力還在不斷提升中: 在這一過(guò)程中,我們也看到了推理能力在不同領(lǐng)域的泛化,智能的邊界正在被慢慢拓寬。 如此說(shuō)來(lái),下一個(gè)版本的豆包更新,可以期待起來(lái)了。 豆包的遠(yuǎn)謀 總結(jié)一下豆包1.5背后的技術(shù)思路,有兩個(gè)關(guān)鍵詞浮出水面:高效,以及“不走捷徑”。 采用頂級(jí)模型蒸餾數(shù)據(jù),在業(yè)內(nèi)已經(jīng)是心照不宣的法門,連C端用戶,也對(duì)A模型口吐“我是B模型”之語(yǔ)見(jiàn)怪不怪。 OpenAI CEO奧特曼自己也曾暗示,復(fù)刻o1并沒(méi)有實(shí)現(xiàn)o1本身那么難: 一方面,是在技術(shù)創(chuàng)新角度上,從0到1遠(yuǎn)比從1到100困難得多。 另一方面,大量的學(xué)術(shù)論文和產(chǎn)業(yè)實(shí)踐已經(jīng)驗(yàn)證,蒸餾頂級(jí)模型數(shù)據(jù)對(duì)于訓(xùn)練基礎(chǔ)模型而言,可以說(shuō)是一條“捷徑”。 當(dāng)然,這條捷徑上也并非沒(méi)有坑。 首先是數(shù)據(jù)安全問(wèn)題。 蒸餾其他模型的數(shù)據(jù),對(duì)于模型開(kāi)發(fā)者而言,天然存在不可控的風(fēng)險(xiǎn)。教師模型的偏見(jiàn)、錯(cuò)誤以及版權(quán)問(wèn)題等,都可能會(huì)被傳遞給學(xué)生模型。 另外,這一技術(shù)方案也可能限制模型的性能上限。 近期就有一線大模型創(chuàng)業(yè)者表達(dá)了類似觀點(diǎn):如果一定要把模型去對(duì)齊一個(gè)別的模型,比如GPT的結(jié)果,會(huì)有一些能力受限。 如此看來(lái),此番豆包公開(kāi)強(qiáng)調(diào)“不使用任何其他模型數(shù)據(jù)”,背后透露出的是國(guó)內(nèi)第一梯隊(duì)大模型產(chǎn)品更長(zhǎng)遠(yuǎn)的布局思路: 不走捷徑,確保數(shù)據(jù)來(lái)源的獨(dú)立性、可靠性、可控性。在追求更高智能的長(zhǎng)期突破的過(guò)程中,把主動(dòng)權(quán)更多地把握在自己手中。 現(xiàn)在,這種自主技術(shù)、長(zhǎng)期主義的思路,也正在市場(chǎng)上得到正反饋: 火山引擎Tokens日均消耗量的月均復(fù)合增長(zhǎng)率超過(guò)60%,2024年12月日均Tokens市場(chǎng)份額占比已超50%,坐上大模型商用年度頭把交椅。 體驗(yàn)地址:https://www.volcengine.com/ 文章來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選