首頁(yè) > 科技要聞 > 科技> 正文

o3拿下IOI 2024金牌!新論文公布RL秘訣:AI自己設(shè)計(jì)測(cè)試時(shí)推理策略,無(wú)需人類干預(yù)

量子位 整合編輯:太平洋科技 發(fā)布于:2025-02-13 14:41

IOI 2024金牌,OpenAI o3輕松高分拿下!

剛剛,OpenAI發(fā)布了關(guān)于推理模型在競(jìng)技編程中應(yīng)用的研究論文報(bào)告,論文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具體成績(jī)。

三兄弟分別是OpenAI o1、o1-ioi(以o1為基礎(chǔ)微調(diào)等改進(jìn)而來(lái))、o3,三者成績(jī)?nèi)缦隆?/p>

IOI 2024,國(guó)際信息學(xué)奧林匹克競(jìng)賽:

o1-ioi在嚴(yán)格規(guī)則下拿到213分(49th percentile),放寬提交限制后飆升至362.14分;

o3在嚴(yán)格規(guī)則下就拿到了395.64分,達(dá)成金牌成就。

CodeForeces,模擬真實(shí)競(jìng)賽環(huán)境評(píng)估模型。

其中,o1-ioi和o3的評(píng)分顯著高于o1,尤其是o3,已經(jīng)接近頂級(jí)人類選手:

o1:1673(89th percentile)

o1-ioi:2214(98th percentile)

o3:2724(99.8th percentile)

論文迅速在全網(wǎng)擴(kuò)散開(kāi)來(lái),網(wǎng)友競(jìng)相傳閱并激烈討論。

有網(wǎng)友注意到,o1-ioi在IOI 2024上表現(xiàn)出色,是因?yàn)樗鼮槊總(gè)問(wèn)題生成了10000個(gè)候選解決方案,還用上了復(fù)雜的test-time策略;而o3在嚴(yán)格限制下達(dá)到頂級(jí)選手水平,僅用了50次提交,且無(wú)人工策略干預(yù)。

這就引出了OpenAI在論文中的一個(gè)高亮結(jié)論——

o3的表現(xiàn),證明了通過(guò)大規(guī)模端到端RL(強(qiáng)化學(xué)習(xí)),無(wú)需依賴人工設(shè)計(jì)的測(cè)試時(shí)推理策略,就能自己學(xué)會(huì)先寫暴力求解代碼提高效率,再用其他方法交叉驗(yàn)證的策略。

網(wǎng)友滿嘴喊著“impressive”:

下一個(gè)里程碑,是出現(xiàn)「單次提交就能搞定每個(gè)問(wèn)題」的模型。
或許OpenAI o4會(huì)帶來(lái)這個(gè)時(shí)刻。

目前,這篇名為《Competitive Programming with Large Reasoning Models》的報(bào)告論文已經(jīng)掛在了arXiv上,文末可見(jiàn)直通車。

o系三兄弟,競(jìng)賽編程各顯神通

競(jìng)技編程,是評(píng)估大模型推理和編碼能力的理想測(cè)試場(chǎng)景。

OpenAI表示,這篇論文的研究目的,是探究在復(fù)雜編碼和推理任務(wù)中,RL對(duì)大模型所起到的作用。

研究過(guò)程還對(duì)比了通用推理模型與領(lǐng)域特定系統(tǒng)的性能,探索提升AI推理能力的有效路徑。

參與研究的推理模型共3個(gè),均出自O(shè)penAI自家家門,分別是:

OpenAI o1

OpenAI o1-ioi

OpenAI o3

通用推理模型o1

o1是一個(gè)經(jīng)過(guò)RL訓(xùn)練的大模型,用于處理復(fù)雜的推理任務(wù)。

通過(guò)RL訓(xùn)練,o1能生成CoT(chain-of-thought,思維鏈),其作用是思考和解決復(fù)雜問(wèn)題,幫助模型識(shí)別和糾正錯(cuò)誤,將復(fù)雜任務(wù)分解為可管理的部分,并在方法失敗時(shí)探索替代解決方案路徑。

除此之外,o1還可調(diào)用外部工具驗(yàn)證代碼。

在CodeForce基準(zhǔn)測(cè)試中,o1拿下了1673分(89th percentile)。

相比非推理模型(如GPT-4o),和早期推理模型(如o1-preview),o1成績(jī)均有顯著提升。

此外,研究人員在對(duì)o1進(jìn)行開(kāi)發(fā)和評(píng)估的過(guò)程中,發(fā)現(xiàn)增加「RL計(jì)算量」以及「test-time推理計(jì)算量」兩方面的工作,都能持續(xù)提升模型性能。

如下圖所示,擴(kuò)展RL訓(xùn)練和擴(kuò)展test-time推理均帶來(lái)了顯著的收益。

針對(duì)性訓(xùn)練推理模型o1-ioi

在發(fā)現(xiàn)增加「RL計(jì)算量」以及「test-time推理計(jì)算量」的重要性后,OpenAI團(tuán)隊(duì)在o1基礎(chǔ)上進(jìn)行針對(duì)性訓(xùn)練,得到o1-ioi,目標(biāo)直指IOI 2024。

除了針對(duì)編碼任務(wù)的持續(xù)RL訓(xùn)練外,o1-ioi還結(jié)合了專為競(jìng)賽編程而設(shè)計(jì)的專用test-time推理策略(類似AlphaCode的人工設(shè)計(jì)的test-time推理策略)。

此過(guò)程第一步是擴(kuò)展o1的RL階段,專注于編碼任務(wù)。

通過(guò)將額外的訓(xùn)練計(jì)算專用于編程問(wèn)題,團(tuán)隊(duì)增強(qiáng)了模型規(guī)劃、實(shí)施和調(diào)試更多涉及的解決方案的能力。

具體如下:

從o1的checkpoint恢復(fù)了RL訓(xùn)練。

特別強(qiáng)調(diào)了具有挑戰(zhàn)性的編程問(wèn)題,幫助模型改進(jìn)C++生成和運(yùn)行時(shí)檢查。

指導(dǎo)模型以IOI提交格式生成輸出。

這種對(duì)編碼的額外關(guān)注,使o1-ioi能在推理期間編寫和執(zhí)行C++程序。

該模型通過(guò)迭代運(yùn)行和優(yōu)化解決方案來(lái)改進(jìn)其推理能力,從而增強(qiáng)了其編碼和解決問(wèn)題的能力。

o1-ioi參與了人類選手相同條件的IOI 2024。

它有10個(gè)小時(shí)的時(shí)間,來(lái)解決6個(gè)具有挑戰(zhàn)性的算法問(wèn)題,每個(gè)問(wèn)題最多允許提交50次。

參賽期間,系統(tǒng)為每個(gè)問(wèn)題生成了10000個(gè)候選解決方案,并使用test-time推理策略選了50個(gè)方案來(lái)提交——這里的test-time推理策略是,根據(jù)IOI公共測(cè)試用例、模型生成測(cè)試用例和學(xué)習(xí)的評(píng)分函數(shù)上的表現(xiàn),來(lái)確定每個(gè)提交內(nèi)容的優(yōu)先級(jí)。

最終,o1-ioi在IOI 2024獲213分,排名前49%。

在CodeForces基準(zhǔn)測(cè)試上,o1-ioi的評(píng)分達(dá)到1807,超過(guò)了93%的競(jìng)爭(zhēng)對(duì)手。

論文中寫道,“這表明,在編碼任務(wù)上的額外RL訓(xùn)練有了明顯的改進(jìn)。”

然后,團(tuán)隊(duì)用一個(gè)簡(jiǎn)單的篩選條件來(lái)拒絕任何未通過(guò)公開(kāi)測(cè)試的解決方案時(shí),評(píng)分上升到2092。

最終,在完整的test-time推理策略推動(dòng)下,o1-ioi的評(píng)分飆升到2214。

這些結(jié)果證實(shí),特定領(lǐng)域的RL微調(diào)與高級(jí)選擇啟發(fā)式相結(jié)合,可以顯著提高有競(jìng)爭(zhēng)力的編程結(jié)果。

研究人員表示,o1-ioi的表現(xiàn),證明特定領(lǐng)域的RL微調(diào)與先進(jìn)選擇策略,是可以提升競(jìng)技編程成績(jī)的。

通用推理模型o3

第三個(gè)參戰(zhàn)的是OpenAI最新推理模型o3。

基于o1和o1-ioi的表現(xiàn),OpenAI團(tuán)隊(duì)探索了純RL訓(xùn)練、不依賴人工設(shè)計(jì)的test-time策略的局限性。

甚至試圖探索用RL進(jìn)一步訓(xùn)練,該模型是否能夠自主開(kāi)發(fā)和執(zhí)行自己的test-time推理策略

為此,團(tuán)隊(duì)取得了o3的早期checkpoint的訪問(wèn)權(quán)限,來(lái)評(píng)估競(jìng)賽編程。

參與IOI 2024競(jìng)賽時(shí),o3與o1-ioi一樣嚴(yán)格遵守官方規(guī)則,每個(gè)問(wèn)題最多允許提交50次。

與o1-ioi為每個(gè)子任務(wù)單獨(dú)采樣解決方案不同,團(tuán)隊(duì)在評(píng)估o3時(shí),采用了不同的方法:

從包含原始問(wèn)題的單個(gè)提示中采樣。

o3測(cè)試自己的解決方案

多提一句,參加IOI 2024的o3版本比參加CodeForce的o3版本更新,包含了額外的更新的訓(xùn)練數(shù)據(jù)。

不過(guò)團(tuán)隊(duì)確認(rèn)了IOI 2024的測(cè)試集不包含在新的訓(xùn)練測(cè)試?yán)铩?/p>

在單個(gè)問(wèn)題只能提交50次的限制下,o3在IOI 2024的最終得分是395.64,超過(guò)了IOI 2024金牌門檻。

(IOI 2024共產(chǎn)生34名金牌選手,金牌線為≥ 359.71)

而在CodeForce基準(zhǔn)測(cè)試上,僅僅依靠進(jìn)一步的RL,o3就獲得了2724分的成績(jī),力壓99.8%的選手。

這個(gè)成績(jī)直逼人類頂尖選手的水準(zhǔn)!

值得注意的是,從得分2214的o1-ioi(超越98%選手),到得分2724的o3(超越99.8%選手),反映了推理模型在競(jìng)賽編程中的顯著提升。

這表明o3能夠以更高的可靠性,解決更廣泛的復(fù)雜算法問(wèn)題,使其能力更接近CodeForces的頂級(jí)人類競(jìng)爭(zhēng)對(duì)手。

更有意思的是,o3在CodeForce參賽期間展現(xiàn)出了更深思熟慮的思維鏈。

它不僅能寫代碼、執(zhí)行并驗(yàn)證,還會(huì)根據(jù)反饋不斷完善解法。

面對(duì)驗(yàn)證復(fù)雜的難題,o3在端到端RL期間,竟然學(xué)會(huì)了先寫出暴力解法,再用最優(yōu)算法的結(jié)果來(lái)交叉驗(yàn)證。

這種自主學(xué)習(xí)的驗(yàn)證機(jī)制,有效提高了方案的可靠性。

綜上,團(tuán)隊(duì)表明,o3的性能優(yōu)于o1-ioi的原因,不依賴于針對(duì)IOI的特定人工設(shè)計(jì)的test-time策略。

相反,o3訓(xùn)練期間出現(xiàn)的復(fù)雜test-time技術(shù)——如用暴力解法來(lái)驗(yàn)證輸出——成為了人工設(shè)計(jì)策略的替代品,讓o3不需要o1-ioi所需的手動(dòng)設(shè)計(jì)聚類、選擇pipeline等需求。

且比人工設(shè)計(jì)策略的性能高出不少。

軟件工程任務(wù)表現(xiàn)如何?

除了競(jìng)賽編程,論文還在真實(shí)的軟件工程任務(wù)上測(cè)試了OpenAI推理模型三兄弟的表現(xiàn)。

團(tuán)隊(duì)主要是在2個(gè)數(shù)據(jù)集上測(cè)試了仨模型:

HackerRank Astra:用于評(píng)估大模型在跨域多文件項(xiàng)目問(wèn)題上正確性和一致性的測(cè)試集

SWE-bench:用于評(píng)估和預(yù)測(cè)軟件工程的基準(zhǔn)測(cè)試和模型評(píng)估集,由普林斯頓大學(xué)NLP團(tuán)隊(duì)開(kāi)發(fā)

令人驚喜的是,推理能力的增強(qiáng)對(duì)軟件工程任務(wù)也有顯著提升。

三兄弟不僅能在競(jìng)賽編程中直逼人類頂尖選手,在真實(shí)的軟件工程任務(wù)上也有亮眼表現(xiàn)。

具體如下:

HackerRank Astra

HackerRank Astra由65個(gè)面向項(xiàng)目的編碼挑戰(zhàn)組成,每個(gè)挑戰(zhàn)都是為了模擬真實(shí)的軟件開(kāi)發(fā)任務(wù)而精心設(shè)計(jì)的。

這些挑戰(zhàn)涵蓋了一系列框架,包括 React.js、Django 和 Node.js,允許獲得構(gòu)建功能和應(yīng)用程序的實(shí)踐經(jīng)驗(yàn)。

該數(shù)據(jù)集的與眾不同之處在于,它專注于評(píng)估反映實(shí)際開(kāi)發(fā)環(huán)境的復(fù)雜、多文件、長(zhǎng)上下文場(chǎng)景中的問(wèn)題解決技能。

與典型的競(jìng)爭(zhēng)性編程數(shù)據(jù)集不同,HackerRank Astra不提供公開(kāi)的測(cè)試用例,這使OpenAI團(tuán)隊(duì)無(wú)法依賴人工制作的測(cè)試時(shí)策略。

使用此數(shù)據(jù)集評(píng)估性能可以揭示推理能力是單獨(dú)提高算法問(wèn)題解決的成功率,還是擴(kuò)展到更實(shí)際的、與行業(yè)相關(guān)的編碼任務(wù)。

上圖中的pass@1,表示首次嘗試成功完成任務(wù)的概率;平均分?jǐn)?shù),代表了通過(guò)的測(cè)試用例的平均比例。

結(jié)果顯示,與GPT-4o相比,o1-preview的pass@1提高了 9.98%,平均分提高了6.03分。

而RL進(jìn)一步微調(diào)可以提升o1的性能,其pass@1為63.92%,比o1-preview提高了3.03%;平均得分為 75.80。

這些指標(biāo)證明了o1增強(qiáng)的推理和適應(yīng)性,使其能夠有效地處理復(fù)雜的、與行業(yè)相關(guān)的軟件開(kāi)發(fā)任務(wù)。

SWE-bench

SWE-bench由普林斯頓大學(xué)NLP團(tuán)隊(duì)開(kāi)發(fā),而SWE-bench Verified是OpenAI的preparedness團(tuán)隊(duì)經(jīng)過(guò)人工驗(yàn)證的SWE-bench的子集。

它可以更可靠地評(píng)估AI模型解決實(shí)際軟件問(wèn)題的能力。

這組經(jīng)過(guò)驗(yàn)證的500個(gè)任務(wù),修復(fù)了SWE-bench的某些問(wèn)題,如正確解決方案的不正確評(píng)分、未指定的問(wèn)題陳述以及過(guò)于具體的單元測(cè)試——這有助于確保基準(zhǔn)測(cè)試準(zhǔn)確地對(duì)模型功能進(jìn)行分級(jí)。

所有模型都嘗試5次來(lái)生成候選patch。

如上圖所示,與GPT-4o相比,o1-preview在SWE-bench上的性能提高了 8.1%,展示了推理能力的顯著進(jìn)步。

通過(guò)在訓(xùn)練期間應(yīng)用額外的RL計(jì)算,o1進(jìn)一步改進(jìn)了8.6%。

值得注意的是,訓(xùn)練計(jì)算資源比o1多得多的o3,比o1改進(jìn)了22.8%,“非常impressive”。

這些結(jié)果表示,推理模型對(duì)軟件工程等實(shí)際任務(wù),也有很大適用性和使用價(jià)值。

One More Thing

OpenAI員工表示,一張梗圖可以很好地總結(jié)這篇論文。

略顯遺憾的是,OpenAI這篇新作雖然掛在了arXiv上,但更像是報(bào)告而非論文——因?yàn)檎撐臎](méi)怎么透露方法細(xì)節(jié),光曬成績(jī)單了。

但其中所寫還是引起了網(wǎng)友的感慨:

任何可以測(cè)量的東西,都將得到改善。

本文來(lái)源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av