首頁 > 科技要聞 > 科技> 正文

OpenAI被曝?cái)?shù)據(jù)崩潰GPT-5難產(chǎn),團(tuán)隊(duì)搶算力沖突激烈!Ilya預(yù)言成真?

新智元 整合編輯:太平洋科技 發(fā)布于:2024-12-25 18:20

OpenAI轟轟烈烈搞出一場(chǎng)12天圣誕特別活動(dòng),結(jié)果期間發(fā)布最轟動(dòng)成果的,居然是谷歌。

谷歌一發(fā)發(fā)密集的核彈,讓OpenAI分成12天的擠牙膏黯然失色,毫無還手之力。

原生多模態(tài)Gemini 2.0 Flash,demo驚艷的Project Astra,組團(tuán)出道的AI智能體,效果吊打Sora掀起全網(wǎng)狂潮的Veo 2……顯得OpenAI的圣誕活動(dòng)仿佛是個(gè)笑話。

到了最后一天,OpenAI好歹支棱起來,放出個(gè)大的。

奧特曼親自上場(chǎng),在直播中揭秘OpenAI下一代推理模型o3,令人印象最為深刻的,就是它在難度極大的ARC-AGI基準(zhǔn)上遙遙領(lǐng)先。

OpenAI模型在ARC-AGI得分的歷年表現(xiàn)

「從o1到o3要3個(gè)月。從o1 Pro到o3只要1個(gè)月!

這個(gè)對(duì)比,算是讓前段時(shí)間甚囂塵上的「Scaling Law撞墻論」打臉了,OpenAI總算揚(yáng)眉吐氣了一回。

目前,o3只對(duì)安全研究員開放,而大家最關(guān)心的是:我們的GPT-5呢?

巧了不是,就在直播幾小時(shí)后,OpenAI直接被外媒踢爆負(fù)面消息:GPT-5問題不斷,遙遙無期!

華爾街日?qǐng)?bào)發(fā)文曝料:OpenAI的新一代AI模型GPT-5的內(nèi)部開發(fā)項(xiàng)目「Orion」問題重重

文章標(biāo)題明晃晃地指出「項(xiàng)目延期」、「成本高昂」,直接把奧特曼惹急了!

他暗暗諷刺道:o3發(fā)布沒多久,他們就說AI的下一個(gè)偉大飛躍進(jìn)展緩慢,這合理嗎?

雖然o3的性能耀眼,但GPT-5究竟何時(shí)發(fā)布,目前還是未知數(shù)。

要知道,自從2023年3月發(fā)布的GPT-4到現(xiàn)在,已經(jīng)超過18個(gè)月了,市場(chǎng)和投資人的耐心,也快被磨沒了。

風(fēng)頭機(jī)構(gòu)Menlo Ventures的數(shù)據(jù)顯示,今年OpenAI在企業(yè)AI領(lǐng)域的市場(chǎng)份額,從50%暴降至34%,但老對(duì)手Anthropic的市場(chǎng)份額卻翻了一番,從12%漲至24%。

甚至今天還有消息曝出:因?yàn)镺penAI模型的性價(jià)比太低,微軟正計(jì)劃將非OpenAI模型集成到365 Copilot。

谷歌、Anthropic的步步緊逼,微軟的暗戳戳「背刺」,OpenAI的境遇,顯然已不是當(dāng)初「贏者通吃」的一家獨(dú)大。

OpenAI在GPT-5的訓(xùn)練上,問題不斷

根據(jù)華爾街日?qǐng)?bào)的報(bào)道,微軟原本計(jì)劃在年中看到GPT-5, 但奧特曼在11月時(shí)表示,今年反正是不會(huì)發(fā)布了。

當(dāng)然,這并不是說OpenAI什么都沒做。

據(jù)知情人士透露,OpenAI至少進(jìn)行了2次大規(guī)模的訓(xùn)練,每次都需要數(shù)月時(shí)間處理和分析海量數(shù)據(jù)。

但每次訓(xùn)練都會(huì)有新的問題出現(xiàn),同時(shí)模型的表現(xiàn)也無法達(dá)到研究人員的預(yù)期——其性能的提升不足以證明維持新模型高昂的運(yùn)行成本是值得的。

不僅如此,一次為期6個(gè)月的訓(xùn)練成本也非常之高——僅計(jì)算部分就需要約5億美元。

大語言模型訓(xùn)練日

OpenAI的ChatGPT模型參數(shù)規(guī)模巨大, 在測(cè)試持續(xù)的時(shí)期內(nèi),模型可以被輸入數(shù)萬億個(gè)token。

ChatGPT系列不同參數(shù)規(guī)模比較

一次大規(guī)模訓(xùn)練可能需要在數(shù)據(jù)中心耗時(shí)數(shù)月,使用的頂級(jí)計(jì)算芯片達(dá)到數(shù)萬塊。

每次訓(xùn)練,研究人員需要在電腦前持續(xù)工作數(shù)周甚至數(shù)月,努力將世界上大部分知識(shí)輸入到AI系統(tǒng)中。

奧特曼曾表示訓(xùn)練GPT-4的成本超過1億美元。未來的AI模型訓(xùn)練成本預(yù)計(jì)將突破10億美元。

訓(xùn)練失敗令人痛心且代價(jià)高昂, 就像航天發(fā)射任務(wù)中火箭在升空后突然爆炸一樣。

為此,研究人員嘗試通過開展小規(guī)模實(shí)驗(yàn)來降低這種失敗的風(fēng)險(xiǎn)——在正式訓(xùn)練前進(jìn)行預(yù)先測(cè)試(trial run)。

但沒想到的是,GPT-5在預(yù)先測(cè)試中就已經(jīng)暴露出了大量問題。

2023年中旬,OpenAI啟動(dòng)代號(hào)為Arrakis的項(xiàng)目,作為Orion新設(shè)計(jì)方案的預(yù)先測(cè)試。

然而,這個(gè)過程的進(jìn)展非常緩慢——也就是說,更大規(guī)模的訓(xùn)練將需要極其長(zhǎng)的時(shí)間,而成本也將會(huì)達(dá)到天文數(shù)字。

項(xiàng)目結(jié)果表明,開發(fā)GPT-5的道路將遠(yuǎn)比預(yù)期更加曲折。

OpenAI的研究人員決定對(duì)Orion進(jìn)行技術(shù)優(yōu)化,并著手去解決多樣化和高質(zhì)量訓(xùn)練數(shù)據(jù)不足的問題。

從零開始構(gòu)建數(shù)據(jù)

為了讓Orion更智能,OpenAI需要擴(kuò)大模型的規(guī)模,而這就需要更多的訓(xùn)練數(shù)據(jù)。

但眾所周知,目前可用的優(yōu)質(zhì)數(shù)據(jù)已經(jīng)捉襟見肘。

對(duì)此,OpenAI的解決方案是:從頭創(chuàng)建數(shù)據(jù)集。

他們正在組建團(tuán)隊(duì)為Orion提供學(xué)習(xí)材料,比如聘請(qǐng)軟件工程師編寫全新的軟件代碼,聘請(qǐng)數(shù)學(xué)家設(shè)計(jì)數(shù)學(xué)問題。這些專家還會(huì)向系統(tǒng)詳細(xì)解釋他們的解題思路和工作過程。

許多研究人員認(rèn)為,程序代碼作為一種嚴(yán)謹(jǐn)?shù)挠?jì)算機(jī)語言,能夠幫助LLM學(xué)會(huì)處理它們此前從未遇到過的問題。

讓人們解釋他們的思維過程可以深化新創(chuàng)建的數(shù)據(jù)的價(jià)值。

這不僅為L(zhǎng)LM提供了更多可學(xué)習(xí)的語言數(shù)據(jù),還為模型在未來解決類似問題提供了系統(tǒng)化的解決方案。

與OpenAI、Meta等科技巨頭都有合作的AI基礎(chǔ)設(shè)施公司Turing,就會(huì)要求軟件工程師編程序去高效解決復(fù)雜的邏輯問題,或讓數(shù)學(xué)家計(jì)算用一百萬個(gè)籃球堆成的金字塔的最大高度。

然后,這些答案,以及更重要的解題思路和步驟,都會(huì)被整合到AI的訓(xùn)練數(shù)據(jù)當(dāng)中。

此外,OpenAI還與理論物理等領(lǐng)域的專家展開合作,請(qǐng)他們?cè)敿?xì)說明如何應(yīng)對(duì)該領(lǐng)域中最具挑戰(zhàn)性的問題。這些專業(yè)知識(shí)也將助力提升Orion的智能水平。

這個(gè)過程,同樣非常緩慢……

據(jù)估計(jì),GPT-4的訓(xùn)練使用了大約1.3×10¹³個(gè)token。即使組織一千人的團(tuán)隊(duì),每人每天撰寫5000字,要生成十億個(gè)token也需要數(shù)月時(shí)間。

與此同時(shí),OpenAI也采用了「合成數(shù)據(jù)」來輔助訓(xùn)練Orion。然而研究表明,這種AI創(chuàng)建數(shù)據(jù)再用于訓(xùn)練AI的反饋循環(huán)往往會(huì)導(dǎo)致系統(tǒng)故障或產(chǎn)生毫無意義的答案。

據(jù)知情人士透露,OpenAI的科學(xué)家們認(rèn)為,使用另一個(gè)AI模型o1生成的數(shù)據(jù),可以避免這些問題。

人才流失

大模型訓(xùn)練充滿挑戰(zhàn)。而公司內(nèi)部的劇烈動(dòng)蕩和競(jìng)爭(zhēng)對(duì)手持續(xù)以數(shù)百萬美元年薪挖角其頂尖研究人員,OpenAI的大模型訓(xùn)練變得更加復(fù)雜。

去年,奧特曼突然被OpenAI董事會(huì)解職,這一事件讓許多研究人員對(duì)公司的未來產(chǎn)生疑慮。不過奧特曼很快被重新任命為首席執(zhí)行官,并隨即著手改革OpenAI的治理架構(gòu)。

僅在今年一年,就有超過二十多名核心高管、研究人員和資深員工離開了OpenAI,包括聯(lián)合創(chuàng)始人兼首席科學(xué)家Ilya Sutskever和首席技術(shù)官M(fèi)ira Murati。

在最近的一次人事變動(dòng)中,著名研究員Alec Radford也宣布離職,他在公司服務(wù)近八年, 是多篇重要科研論文的主要作者。

重啟Orion項(xiàng)目

截至2024年初,OpenAI的高管們開始感受到越來越大的壓力。

GPT-4推出已滿一年,而競(jìng)爭(zhēng)對(duì)手們正在快速追趕。

Anthropic公司推出的新一代大模型在業(yè)內(nèi)廣受好評(píng),許多專家認(rèn)為其性能已經(jīng)超越了GPT-4。

在2024年第二季度,谷歌又推出了智能筆記應(yīng)用NotebookLM,這款A(yù)I輔助寫作工具迅速成為年度最受歡迎的人工智能應(yīng)用。

面對(duì)Orion項(xiàng)目的研發(fā)瓶頸,OpenAI開始將資源分配到其他項(xiàng)目和應(yīng)用的開發(fā)中。這些新項(xiàng)目包括開發(fā)GPT-4的輕量級(jí)版本,以及名為Sora的AI視頻生成產(chǎn)品。

據(jù)知情人士透露,為了爭(zhēng)奪有限的算力資源,負(fù)責(zé)新產(chǎn)品開發(fā)的團(tuán)隊(duì)與Orion研究員之間產(chǎn)生了沖突。

AI實(shí)驗(yàn)室之間的競(jìng)爭(zhēng)已經(jīng)遠(yuǎn)超科學(xué)界常態(tài),各大科技公司發(fā)表的最新研究成果和技術(shù)突破論文數(shù)量顯著減少。

自2022年大量資金涌入市場(chǎng)以來,科技公司開始將這些研究成果視為核心商業(yè)機(jī)密。一些研究人員對(duì)保密工作極其謹(jǐn)慎,甚至拒絕在飛機(jī)上、咖啡店或任何可能被他人窺視工作內(nèi)容的場(chǎng)所辦公。

這種過度保密的態(tài)度引發(fā)了許多資深A(yù)I研究者的不滿,其中包括Meta首席AI科學(xué)家Yann LeCun。他直言不諱地表示,OpenAI和Anthropic的工作本質(zhì)上已不能算作研究,而應(yīng)該被視為「高級(jí)產(chǎn)品開發(fā)」。

在一次OpenAI幾乎缺席的AI會(huì)議上,LeCun表示:「如果是在商業(yè)開發(fā)周期的壓力下進(jìn)行的,那就不能稱之為研究;如果是在完全保密的情況下進(jìn)行的,那也不能稱之為研究!

再次踩坑

2024年初,OpenAI準(zhǔn)備借助改進(jìn)后的數(shù)據(jù)再次啟動(dòng)Orion項(xiàng)目。研究團(tuán)隊(duì)在第一季度開展了數(shù)次小規(guī)模模型訓(xùn)練,以積累經(jīng)驗(yàn)并建立信心。

到5月,OpenAI的研究人員認(rèn)為時(shí)機(jī)成熟,決定再次嘗試Orion的大規(guī)模模型訓(xùn)練,預(yù)計(jì)整個(gè)過程將持續(xù)到11月。

然而,訓(xùn)練開始后,研究人員發(fā)現(xiàn)了數(shù)據(jù)集存在的問題:數(shù)據(jù)的多樣性遠(yuǎn)低于預(yù)期,這可能會(huì)嚴(yán)重制約Orion的學(xué)習(xí)能力。

這個(gè)問題在小規(guī)模測(cè)試中并未顯現(xiàn),直到大規(guī)模訓(xùn)練啟動(dòng)后才暴露出來。考慮到已投入的時(shí)間和資金成本過于巨大,OpenAI已無法從頭開始。

為此,研究團(tuán)隊(duì)不得不在訓(xùn)練過程中緊急尋找更多樣化的數(shù)據(jù)輸入模型。這種補(bǔ)救策略的效果目前仍未可知。

數(shù)據(jù)正在耗盡

Orion項(xiàng)目遇到的這些問題向OpenAI內(nèi)部傳遞出一個(gè)信號(hào):過去推動(dòng)公司取得成功的「規(guī)模至上」策略可能已經(jīng)走到盡頭。

不只是OpenAI在擔(dān)憂發(fā)展遇到瓶頸。整個(gè)AI行業(yè)都在激烈討論一個(gè)問題:人工智能的技術(shù)進(jìn)步是否已開始進(jìn)入平臺(tái)期。

OpenAI前首席科學(xué)家Ilya Sutskever最近在NeurIPS 2024上明確表示,依靠海量數(shù)據(jù)推動(dòng)AI發(fā)展的時(shí)代已經(jīng)終結(jié)。

「由于我們只有一個(gè)互聯(lián)網(wǎng),數(shù)據(jù)增長(zhǎng)已經(jīng)到頭了。數(shù)據(jù)就像AI領(lǐng)域的化石能源一樣,即將枯竭!

而這種珍貴的「數(shù)字燃料」正在日漸枯竭。

全新策略:增加推理時(shí)間

在Orion項(xiàng)目的研發(fā)過程中,OpenAI研究人員發(fā)現(xiàn)了提升大語言模型智能的新途徑:強(qiáng)化推理能力。

研究人員表示,通過延長(zhǎng)模型在推理時(shí)的「思考」時(shí)間,可以使其解決一些沒有訓(xùn)練過的難題。

從技術(shù)實(shí)現(xiàn)角度來看,OpenAI o1采用多答案生成機(jī)制,即對(duì)每個(gè)問題生成多個(gè)候選答案,并通過分析篩選出最優(yōu)解。

由此,模型便可以處理更復(fù)雜的任務(wù),如制定商業(yè)計(jì)劃或設(shè)計(jì)填字游戲,同時(shí)提供詳細(xì)的推理過程說明——這種機(jī)制使模型能夠從每次回答中持續(xù)學(xué)習(xí)優(yōu)化。

不過,蘋果的研究員在論文中對(duì)此提出了質(zhì)疑,認(rèn)為包括o1在內(nèi)的推理模型很可能只是在復(fù)現(xiàn)訓(xùn)練數(shù)據(jù)中的模式,而非真正具備解決新問題的能力。

論文鏈接:https://arxiv.org/abs/2410.05229

研究人員發(fā)現(xiàn),當(dāng)在問題中添加無關(guān)信息時(shí),模型性能會(huì)出現(xiàn)嚴(yán)重退化——例如,僅僅在一道關(guān)于獼猴桃的數(shù)學(xué)題中加入水果大小差異的描述,就會(huì)導(dǎo)致模型表現(xiàn)顯著下降。

在最近的TED演講中,OpenAI的高級(jí)研究科學(xué)家Noam Brown著重強(qiáng)調(diào)了推理能力的重要性。

Noam Brown表示:「我們的研究發(fā)現(xiàn),讓AI在撲克游戲中進(jìn)行20秒的推理思考,就能獲得與將模型規(guī)模擴(kuò)大100,000倍并延長(zhǎng)訓(xùn)練時(shí)間100,000倍相當(dāng)?shù)男阅芴嵘!?/span>

一個(gè)更先進(jìn)、更高效的推理模型可能成為Orion項(xiàng)目的核心基礎(chǔ)。

OpenAI的研究團(tuán)隊(duì)正在深入探索這一方向,并計(jì)劃將其與傳統(tǒng)的數(shù)據(jù)擴(kuò)充方法相結(jié)合,部分訓(xùn)練數(shù)據(jù)將來自O(shè)penAI的其他AI模型。

隨后,他們將利用人工生成的內(nèi)容來進(jìn)一步優(yōu)化模型效果。

o3屠榜基準(zhǔn)測(cè)試,但距離AGI有多遠(yuǎn)?

隨著o3的「發(fā)布」,模型也在多項(xiàng)基準(zhǔn)測(cè)試中,相比o1 pro取得了明顯的提升, 而這才過了1個(gè)月。

并且,在號(hào)稱通用人工智能「唯一正式進(jìn)展基準(zhǔn)」的ARC-AGI測(cè)試中, o3以20%+的優(yōu)勢(shì)遠(yuǎn)超第二名。

具體來說,o3在半私有評(píng)估集上取得了突破性的75.7%高分,在高計(jì)算量模式(172倍計(jì)算量)下得分高達(dá)87.5%。

作為對(duì)比,ARC-AGI在此前的4年時(shí)間里,正確率僅增長(zhǎng)了5%——從2020年GPT-3時(shí)的0%到2024年GPT-4o的5%。

o3顛覆了所有關(guān)于AI能力的直觀感受。

畢竟,就算在GPT-4上投入再多的計(jì)算,也無法獲得這樣的結(jié)果。

但問題在于,提高準(zhǔn)確率的代價(jià)是巨大的:人類在完成ARC-AGI基準(zhǔn)測(cè)試時(shí),每項(xiàng)任務(wù)大約只需支付5美元,且只消耗幾美分的能量;而o3在低計(jì)算量模式下,每個(gè)任務(wù)需要17-20美元。

盡管87.5%這個(gè)更高得分排名性價(jià)比很低,但能證明隨著計(jì)算量的增加,模型的性能確實(shí)有所提升。

還不是AGI

在ARC-AGI「公開評(píng)估」(Public Eval)中,有大約9%的任務(wù),即便o3加大計(jì)算量也無法解決。但對(duì)于人類來說卻十分簡(jiǎn)單。

擦擦眼睛,試試能否打敗目前最強(qiáng)的o3模型。

在嘗試前,請(qǐng)注意:在下面這個(gè)例子中,箭頭前的圖片(即上方圖片)表示輸入,箭頭后的圖片(下方的圖片)表示輸出,灰色部分表示數(shù)據(jù)集中的例子,綠色部分為o3的兩次錯(cuò)誤嘗試,最后一部分為答案。

在第一個(gè)例子中,o3先是給出了一個(gè)錯(cuò)到離譜的答案,然后在第二次輸出中生成了一大片黑色像素……

這似乎是目前為止最差的一次結(jié)果,而且很難解釋為什會(huì)這樣。

第二個(gè)例子有點(diǎn)考驗(yàn)眼力,雖然每一行都對(duì)了的,但網(wǎng)格卻沒有對(duì)齊。

第三個(gè)例子,o3沒有將藍(lán)色圖塊拉到左側(cè)邊欄。

最后一個(gè)例子,在兩次嘗試中,o3的預(yù)測(cè)中漏掉了幾行?磥,它很難記住有多少相同重復(fù)的行要輸出。

GPT-5將帶來「重大飛躍」?

在10月, 投資者給予OpenAI的1570億美元估值,很大程度上基于奧特曼預(yù)測(cè)GPT-5將在各類學(xué)科和任務(wù)上實(shí)現(xiàn)「重大飛躍」。

目前并沒有固定的標(biāo)準(zhǔn),來判斷一個(gè)模型是否足夠智能到可以被稱為GPT-5。

普遍的看法是GPT-5能夠解鎖新的科學(xué)發(fā)現(xiàn),同時(shí)能完成日常任務(wù)(如門診預(yù)約或訂機(jī)票)。

研究人員希望它犯更少的錯(cuò)誤,或至少能在犯錯(cuò)時(shí)承認(rèn)自己對(duì)答案也有所懷疑,即減少所謂的「AI幻覺」。

一位前OpenAI高管表示,如果說GPT-4的表現(xiàn)像個(gè)聰明的高中生,那么未來的GPT-5在某些任務(wù)上將相當(dāng)于擁有博士學(xué)位水平。

今年早些時(shí)候,奧特曼在斯坦福大學(xué)的一次演講中告訴學(xué)生,OpenAI可以「以高度的科學(xué)確定性」說,GPT-5將比當(dāng)前模型更加智能。

公司高管們主要基于經(jīng)驗(yàn)判斷和技術(shù)評(píng)估,或者如許多技術(shù)專家所說的「整體表現(xiàn)」,來決定模型是否達(dá)到了GPT-5的水平。

但是,到目前為止,這種「整體表現(xiàn)」并不理想。

本文來源:新智元

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av