IOI 2024金牌,OpenAI o3輕松高分拿下! 剛剛,OpenAI發(fā)布了關(guān)于推理模型在競(jìng)技編程中應(yīng)用的研究論文報(bào)告,論文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具體成績(jī)。 三兄弟分別是OpenAI o1、o1-ioi(以o1為基礎(chǔ)微調(diào)等改進(jìn)而來(lái))、o3,三者成績(jī)?nèi)缦隆?/p> IOI 2024,國(guó)際信息學(xué)奧林匹克競(jìng)賽: o1-ioi在嚴(yán)格規(guī)則下拿到213分(49th percentile),放寬提交限制后飆升至362.14分; o3在嚴(yán)格規(guī)則下就拿到了395.64分,達(dá)成金牌成就。 CodeForeces,模擬真實(shí)競(jìng)賽環(huán)境評(píng)估模型。 其中,o1-ioi和o3的評(píng)分顯著高于o1,尤其是o3,已經(jīng)接近頂級(jí)人類選手: o1:1673(89th percentile) o1-ioi:2214(98th percentile) o3:2724(99.8th percentile) 論文迅速在全網(wǎng)擴(kuò)散開(kāi)來(lái),網(wǎng)友競(jìng)相傳閱并激烈討論。 有網(wǎng)友注意到,o1-ioi在IOI 2024上表現(xiàn)出色,是因?yàn)樗鼮槊總(gè)問(wèn)題生成了10000個(gè)候選解決方案,還用上了復(fù)雜的test-time策略;而o3在嚴(yán)格限制下達(dá)到頂級(jí)選手水平,僅用了50次提交,且無(wú)人工策略干預(yù)。 這就引出了OpenAI在論文中的一個(gè)高亮結(jié)論—— o3的表現(xiàn),證明了通過(guò)大規(guī)模端到端RL(強(qiáng)化學(xué)習(xí)),無(wú)需依賴人工設(shè)計(jì)的測(cè)試時(shí)推理策略,就能自己學(xué)會(huì)先寫暴力求解代碼提高效率,再用其他方法交叉驗(yàn)證的策略。 網(wǎng)友滿嘴喊著“impressive”: 下一個(gè)里程碑,是出現(xiàn)「單次提交就能搞定每個(gè)問(wèn)題」的模型。 目前,這篇名為《Competitive Programming with Large Reasoning Models》的報(bào)告論文已經(jīng)掛在了arXiv上,文末可見(jiàn)直通車。 o系三兄弟,競(jìng)賽編程各顯神通 競(jìng)技編程,是評(píng)估大模型推理和編碼能力的理想測(cè)試場(chǎng)景。 OpenAI表示,這篇論文的研究目的,是探究在復(fù)雜編碼和推理任務(wù)中,RL對(duì)大模型所起到的作用。 研究過(guò)程還對(duì)比了通用推理模型與領(lǐng)域特定系統(tǒng)的性能,探索提升AI推理能力的有效路徑。 參與研究的推理模型共3個(gè),均出自O(shè)penAI自家家門,分別是: OpenAI o1 OpenAI o1-ioi OpenAI o3 通用推理模型o1o1是一個(gè)經(jīng)過(guò)RL訓(xùn)練的大模型,用于處理復(fù)雜的推理任務(wù)。 通過(guò)RL訓(xùn)練,o1能生成CoT(chain-of-thought,思維鏈),其作用是思考和解決復(fù)雜問(wèn)題,幫助模型識(shí)別和糾正錯(cuò)誤,將復(fù)雜任務(wù)分解為可管理的部分,并在方法失敗時(shí)探索替代解決方案路徑。 除此之外,o1還可調(diào)用外部工具驗(yàn)證代碼。 在CodeForce基準(zhǔn)測(cè)試中,o1拿下了1673分(89th percentile)。 相比非推理模型(如GPT-4o),和早期推理模型(如o1-preview),o1成績(jī)均有顯著提升。 此外,研究人員在對(duì)o1進(jìn)行開(kāi)發(fā)和評(píng)估的過(guò)程中,發(fā)現(xiàn)增加「RL計(jì)算量」以及「test-time推理計(jì)算量」兩方面的工作,都能持續(xù)提升模型性能。 如下圖所示,擴(kuò)展RL訓(xùn)練和擴(kuò)展test-time推理均帶來(lái)了顯著的收益。 針對(duì)性訓(xùn)練推理模型o1-ioi在發(fā)現(xiàn)增加「RL計(jì)算量」以及「test-time推理計(jì)算量」的重要性后,OpenAI團(tuán)隊(duì)在o1基礎(chǔ)上進(jìn)行針對(duì)性訓(xùn)練,得到o1-ioi,目標(biāo)直指IOI 2024。 除了針對(duì)編碼任務(wù)的持續(xù)RL訓(xùn)練外,o1-ioi還結(jié)合了專為競(jìng)賽編程而設(shè)計(jì)的專用test-time推理策略(類似AlphaCode的人工設(shè)計(jì)的test-time推理策略)。 此過(guò)程第一步是擴(kuò)展o1的RL階段,專注于編碼任務(wù)。 通過(guò)將額外的訓(xùn)練計(jì)算專用于編程問(wèn)題,團(tuán)隊(duì)增強(qiáng)了模型規(guī)劃、實(shí)施和調(diào)試更多涉及的解決方案的能力。 具體如下: 從o1的checkpoint恢復(fù)了RL訓(xùn)練。 特別強(qiáng)調(diào)了具有挑戰(zhàn)性的編程問(wèn)題,幫助模型改進(jìn)C++生成和運(yùn)行時(shí)檢查。 指導(dǎo)模型以IOI提交格式生成輸出。 這種對(duì)編碼的額外關(guān)注,使o1-ioi能在推理期間編寫和執(zhí)行C++程序。 該模型通過(guò)迭代運(yùn)行和優(yōu)化解決方案來(lái)改進(jìn)其推理能力,從而增強(qiáng)了其編碼和解決問(wèn)題的能力。 o1-ioi參與了人類選手相同條件的IOI 2024。 它有10個(gè)小時(shí)的時(shí)間,來(lái)解決6個(gè)具有挑戰(zhàn)性的算法問(wèn)題,每個(gè)問(wèn)題最多允許提交50次。 參賽期間,系統(tǒng)為每個(gè)問(wèn)題生成了10000個(gè)候選解決方案,并使用test-time推理策略選了50個(gè)方案來(lái)提交——這里的test-time推理策略是,根據(jù)IOI公共測(cè)試用例、模型生成測(cè)試用例和學(xué)習(xí)的評(píng)分函數(shù)上的表現(xiàn),來(lái)確定每個(gè)提交內(nèi)容的優(yōu)先級(jí)。 最終,o1-ioi在IOI 2024獲213分,排名前49%。 在CodeForces基準(zhǔn)測(cè)試上,o1-ioi的評(píng)分達(dá)到1807,超過(guò)了93%的競(jìng)爭(zhēng)對(duì)手。 論文中寫道,“這表明,在編碼任務(wù)上的額外RL訓(xùn)練有了明顯的改進(jìn)。” 然后,團(tuán)隊(duì)用一個(gè)簡(jiǎn)單的篩選條件來(lái)拒絕任何未通過(guò)公開(kāi)測(cè)試的解決方案時(shí),評(píng)分上升到2092。 最終,在完整的test-time推理策略推動(dòng)下,o1-ioi的評(píng)分飆升到2214。 這些結(jié)果證實(shí),特定領(lǐng)域的RL微調(diào)與高級(jí)選擇啟發(fā)式相結(jié)合,可以顯著提高有競(jìng)爭(zhēng)力的編程結(jié)果。 研究人員表示,o1-ioi的表現(xiàn),證明特定領(lǐng)域的RL微調(diào)與先進(jìn)選擇策略,是可以提升競(jìng)技編程成績(jī)的。 通用推理模型o3第三個(gè)參戰(zhàn)的是OpenAI最新推理模型o3。 基于o1和o1-ioi的表現(xiàn),OpenAI團(tuán)隊(duì)探索了純RL訓(xùn)練、不依賴人工設(shè)計(jì)的test-time策略的局限性。 甚至試圖探索用RL進(jìn)一步訓(xùn)練,該模型是否能夠自主開(kāi)發(fā)和執(zhí)行自己的test-time推理策略 為此,團(tuán)隊(duì)取得了o3的早期checkpoint的訪問(wèn)權(quán)限,來(lái)評(píng)估競(jìng)賽編程。 參與IOI 2024競(jìng)賽時(shí),o3與o1-ioi一樣嚴(yán)格遵守官方規(guī)則,每個(gè)問(wèn)題最多允許提交50次。 與o1-ioi為每個(gè)子任務(wù)單獨(dú)采樣解決方案不同,團(tuán)隊(duì)在評(píng)估o3時(shí),采用了不同的方法: 從包含原始問(wèn)題的單個(gè)提示中采樣。 △o3測(cè)試自己的解決方案多提一句,參加IOI 2024的o3版本比參加CodeForce的o3版本更新,包含了額外的更新的訓(xùn)練數(shù)據(jù)。 不過(guò)團(tuán)隊(duì)確認(rèn)了IOI 2024的測(cè)試集不包含在新的訓(xùn)練測(cè)試?yán)铩?/p> 在單個(gè)問(wèn)題只能提交50次的限制下,o3在IOI 2024的最終得分是395.64,超過(guò)了IOI 2024金牌門檻。 (IOI 2024共產(chǎn)生34名金牌選手,金牌線為≥ 359.71) 而在CodeForce基準(zhǔn)測(cè)試上,僅僅依靠進(jìn)一步的RL,o3就獲得了2724分的成績(jī),力壓99.8%的選手。 這個(gè)成績(jī)直逼人類頂尖選手的水準(zhǔn)! 值得注意的是,從得分2214的o1-ioi(超越98%選手),到得分2724的o3(超越99.8%選手),反映了推理模型在競(jìng)賽編程中的顯著提升。 這表明o3能夠以更高的可靠性,解決更廣泛的復(fù)雜算法問(wèn)題,使其能力更接近CodeForces的頂級(jí)人類競(jìng)爭(zhēng)對(duì)手。 更有意思的是,o3在CodeForce參賽期間展現(xiàn)出了更深思熟慮的思維鏈。 它不僅能寫代碼、執(zhí)行并驗(yàn)證,還會(huì)根據(jù)反饋不斷完善解法。 面對(duì)驗(yàn)證復(fù)雜的難題,o3在端到端RL期間,竟然學(xué)會(huì)了先寫出暴力解法,再用最優(yōu)算法的結(jié)果來(lái)交叉驗(yàn)證。 這種自主學(xué)習(xí)的驗(yàn)證機(jī)制,有效提高了方案的可靠性。 綜上,團(tuán)隊(duì)表明,o3的性能優(yōu)于o1-ioi的原因,不依賴于針對(duì)IOI的特定人工設(shè)計(jì)的test-time策略。 相反,o3訓(xùn)練期間出現(xiàn)的復(fù)雜test-time技術(shù)——如用暴力解法來(lái)驗(yàn)證輸出——成為了人工設(shè)計(jì)策略的替代品,讓o3不需要o1-ioi所需的手動(dòng)設(shè)計(jì)聚類、選擇pipeline等需求。 且比人工設(shè)計(jì)策略的性能高出不少。 軟件工程任務(wù)表現(xiàn)如何? 除了競(jìng)賽編程,論文還在真實(shí)的軟件工程任務(wù)上測(cè)試了OpenAI推理模型三兄弟的表現(xiàn)。 團(tuán)隊(duì)主要是在2個(gè)數(shù)據(jù)集上測(cè)試了仨模型: HackerRank Astra:用于評(píng)估大模型在跨域多文件項(xiàng)目問(wèn)題上正確性和一致性的測(cè)試集 SWE-bench:用于評(píng)估和預(yù)測(cè)軟件工程的基準(zhǔn)測(cè)試和模型評(píng)估集,由普林斯頓大學(xué)NLP團(tuán)隊(duì)開(kāi)發(fā) 令人驚喜的是,推理能力的增強(qiáng)對(duì)軟件工程任務(wù)也有顯著提升。 三兄弟不僅能在競(jìng)賽編程中直逼人類頂尖選手,在真實(shí)的軟件工程任務(wù)上也有亮眼表現(xiàn)。 具體如下: HackerRank AstraHackerRank Astra由65個(gè)面向項(xiàng)目的編碼挑戰(zhàn)組成,每個(gè)挑戰(zhàn)都是為了模擬真實(shí)的軟件開(kāi)發(fā)任務(wù)而精心設(shè)計(jì)的。 這些挑戰(zhàn)涵蓋了一系列框架,包括 React.js、Django 和 Node.js,允許獲得構(gòu)建功能和應(yīng)用程序的實(shí)踐經(jīng)驗(yàn)。 該數(shù)據(jù)集的與眾不同之處在于,它專注于評(píng)估反映實(shí)際開(kāi)發(fā)環(huán)境的復(fù)雜、多文件、長(zhǎng)上下文場(chǎng)景中的問(wèn)題解決技能。 與典型的競(jìng)爭(zhēng)性編程數(shù)據(jù)集不同,HackerRank Astra不提供公開(kāi)的測(cè)試用例,這使OpenAI團(tuán)隊(duì)無(wú)法依賴人工制作的測(cè)試時(shí)策略。 使用此數(shù)據(jù)集評(píng)估性能可以揭示推理能力是單獨(dú)提高算法問(wèn)題解決的成功率,還是擴(kuò)展到更實(shí)際的、與行業(yè)相關(guān)的編碼任務(wù)。 上圖中的pass@1,表示首次嘗試成功完成任務(wù)的概率;平均分?jǐn)?shù),代表了通過(guò)的測(cè)試用例的平均比例。 結(jié)果顯示,與GPT-4o相比,o1-preview的pass@1提高了 9.98%,平均分提高了6.03分。 而RL進(jìn)一步微調(diào)可以提升o1的性能,其pass@1為63.92%,比o1-preview提高了3.03%;平均得分為 75.80。 這些指標(biāo)證明了o1增強(qiáng)的推理和適應(yīng)性,使其能夠有效地處理復(fù)雜的、與行業(yè)相關(guān)的軟件開(kāi)發(fā)任務(wù)。 SWE-benchSWE-bench由普林斯頓大學(xué)NLP團(tuán)隊(duì)開(kāi)發(fā),而SWE-bench Verified是OpenAI的preparedness團(tuán)隊(duì)經(jīng)過(guò)人工驗(yàn)證的SWE-bench的子集。 它可以更可靠地評(píng)估AI模型解決實(shí)際軟件問(wèn)題的能力。 這組經(jīng)過(guò)驗(yàn)證的500個(gè)任務(wù),修復(fù)了SWE-bench的某些問(wèn)題,如正確解決方案的不正確評(píng)分、未指定的問(wèn)題陳述以及過(guò)于具體的單元測(cè)試——這有助于確保基準(zhǔn)測(cè)試準(zhǔn)確地對(duì)模型功能進(jìn)行分級(jí)。 所有模型都嘗試5次來(lái)生成候選patch。 如上圖所示,與GPT-4o相比,o1-preview在SWE-bench上的性能提高了 8.1%,展示了推理能力的顯著進(jìn)步。 通過(guò)在訓(xùn)練期間應(yīng)用額外的RL計(jì)算,o1進(jìn)一步改進(jìn)了8.6%。 值得注意的是,訓(xùn)練計(jì)算資源比o1多得多的o3,比o1改進(jìn)了22.8%,“非常impressive”。 這些結(jié)果表示,推理模型對(duì)軟件工程等實(shí)際任務(wù),也有很大適用性和使用價(jià)值。 One More Thing OpenAI員工表示,一張梗圖可以很好地總結(jié)這篇論文。 略顯遺憾的是,OpenAI這篇新作雖然掛在了arXiv上,但更像是報(bào)告而非論文——因?yàn)檎撐臎](méi)怎么透露方法細(xì)節(jié),光曬成績(jī)單了。 但其中所寫還是引起了網(wǎng)友的感慨: 任何可以測(cè)量的東西,都將得到改善。 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。