開源推理大模型新架構(gòu)來(lái)了,采用與Deepseek-R1/OpenAI o1截然不同的路線: 拋棄長(zhǎng)思維鏈和人類的語(yǔ)言,直接在連續(xù)的高維潛空間用隱藏狀態(tài)推理,可自適應(yīng)地花費(fèi)更多計(jì)算來(lái)思考更長(zhǎng)時(shí)間。 例如問(wèn)題:Claire每天早餐都會(huì)做一個(gè)3個(gè)雞蛋的煎蛋卷。她在4周內(nèi)會(huì)吃多少個(gè)雞蛋? 從新模型Huginn的思考軌跡可視化中,可以看到對(duì)數(shù)字3等重要token不斷旋轉(zhuǎn),最終收斂到正確答案對(duì)應(yīng)的位置,但在不關(guān)鍵的人物名字Cla-ire上沒(méi)有這個(gè)現(xiàn)象。 除旋轉(zhuǎn)之外還能觀察到更多豐富的幾何模式,研究團(tuán)隊(duì)認(rèn)為這表明該模型正在獨(dú)立學(xué)習(xí)利用潛空間的高維性質(zhì)以新的方式做推理。 由于不使用長(zhǎng)思維鏈推理范式,新方法還有幾個(gè)額外優(yōu)勢(shì): 不需要任何專門的訓(xùn)練數(shù)據(jù) 可以在很小的上下文窗口下工作 能捕捉到難以用語(yǔ)言表達(dá)的推理類型 研究來(lái)自馬克思普朗克研究所、馬里蘭大學(xué)等團(tuán)隊(duì),他們使用美國(guó)橡樹嶺實(shí)驗(yàn)室的Frontier超算完成訓(xùn)練實(shí)驗(yàn),用到8個(gè)AMD GPU節(jié)點(diǎn)(4096塊GPU),沒(méi)有使用英偉達(dá)體系。 新架構(gòu)給Transformer加入循環(huán)模塊 新架構(gòu)仍然圍繞Decoder-only的Transformer block構(gòu)建,但分為三段: Prelude(前奏):使用多個(gè)transformer層將輸入數(shù)據(jù)嵌入到潛空間中 Recurrent Block(循環(huán)塊):循環(huán)計(jì)算單元,在潛在空間中修改狀態(tài) Coda(尾聲):從潛空間解碼,并包含模型的預(yù)測(cè)頭 在訓(xùn)練期間為每個(gè)輸入序列分配隨機(jī)數(shù)量的迭代次數(shù)。同時(shí)為了在訓(xùn)練時(shí)保持較低的計(jì)算和內(nèi)存,只反向傳播循環(huán)單元的最后k次迭代。 研究中可視化了模型在潛在空間中的推理軌跡,發(fā)現(xiàn)了這些有趣現(xiàn)象: 對(duì)一些簡(jiǎn)單token,模型的隱狀態(tài)會(huì)快速收斂到穩(wěn)定點(diǎn) 但對(duì)一些關(guān)鍵token,如數(shù)學(xué)問(wèn)題中的數(shù)字”3”,隱狀態(tài)會(huì)形成復(fù)雜的圓形軌道 還有一些token的隱狀態(tài)會(huì)沿特定方向”滑動(dòng)”,可能用于計(jì)數(shù)循環(huán)次數(shù)
論文一作Jonas Geiping透露,他們的算力只夠一次大規(guī)模訓(xùn)練,也就是最后發(fā)布的3.5B參數(shù)的Huginn模型,在800B tokens數(shù)據(jù)上預(yù)訓(xùn)練。 沒(méi)有post/mid-training過(guò)程,但可以與7B參數(shù)、在2-3T tokens數(shù)據(jù)上訓(xùn)練的開源模型能力相匹配。 另外算上循環(huán)模塊中的計(jì)算,3.5B參數(shù)的模型訓(xùn)練時(shí)的計(jì)算量相當(dāng)于傳統(tǒng)的32B模型。 有人猜測(cè)OpenAI o3使用了類似的方法,通過(guò)循環(huán)來(lái)達(dá)到近似無(wú)限上下文,并且控制高中低三種推理時(shí)間設(shè)置。 有OpenAI研究員已經(jīng)注意到這個(gè)工作,把論文讀完了還在線捉bug。 也已經(jīng)有人準(zhǔn)備根據(jù)DeepSeek-R1開源的方法嘗試新思路,同時(shí)保留潛空間思考的推理能力,和CoT思考的可讀性。 論文: 參考鏈接: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。