就在昨晚,萬眾矚目矚目的GPT-4.5終于登場! 雖然它并不是推理模型,但OpenAI對它的評價(jià)是——更實(shí)用,本質(zhì)上更智能。 進(jìn)行展示的OpenAI研究者中,有一位華人科學(xué)家:Youlong Cheng 劃重點(diǎn):今天起,GPT-4.5會(huì)向所有ChatGPT Pro版用戶開放,包括網(wǎng)頁端、移動(dòng)端和桌面端。另外所有付費(fèi)開發(fā)者也能使用了。 下周會(huì)向Team版和Plus版開放,隨后一周就是Edu和Enterprise版的用戶。 GPT-4.5研究預(yù)覽版,是OpenAI迄今為止規(guī)模最大、知識儲(chǔ)備最豐富的模型。 作為GPT-4o升級版,GPT-4.5在預(yù)訓(xùn)練規(guī)模上進(jìn)一步Scaling,同時(shí)被設(shè)計(jì)成一個(gè)通用性更強(qiáng)的模型。 它秘密武器便是——Scaling無監(jiān)督學(xué)習(xí)和推理。 基于新舊技術(shù)的融合,GPT-4.5能更好地識別模式、連接信息,甚至在不需要復(fù)雜推理情況下,就能給出富有創(chuàng)意的回答。而且,幻覺率大幅降低。 這難道就是奧特曼口中的AGI嗎? 在多項(xiàng)基準(zhǔn)測試中,GPT-4.5實(shí)力碾壓GPT-4o,尤其在數(shù)學(xué)能力上飆升27%,編碼能力提升7%-10%。 其中,在SWE-Lancer這種更依賴深層世界知識的評估中,GPT-4.5甚至一舉超越了o3-mini! 這充分展示了無監(jiān)督學(xué)習(xí)與推理能力提升之間的互補(bǔ)關(guān)系。 在最新Cognition編碼實(shí)測中,GPT-4.5的能力雖不及Claude 3.7,但明顯超越了DeepSeek-R1、o1、GPT-4o等模型。 唯一值得吐槽的是,GPT-4.5的token定價(jià)著實(shí)有些離大譜:每1M tokens輸入價(jià)格為75刀,輸出價(jià)格為150刀。 奧特曼承認(rèn):GPT-4.5很像人,但龐大且昂貴奧特曼激動(dòng)發(fā)文表示,「GPT-4.5準(zhǔn)備就緒了」!
他解釋道,由于OpenAI發(fā)展太快,內(nèi)部GPU不夠用了。下周將增加數(shù)萬個(gè)GPU,屆時(shí)會(huì)向Plus會(huì)員推出。 「很快會(huì)增加數(shù)十萬個(gè),我很確定你們會(huì)用掉我們能搭建的每一個(gè)GPU。這不是我們想要的運(yùn)營方式,但要完美預(yù)測導(dǎo)致GPU短缺的增長高峰確實(shí)很難」。 提前說明:這不是一個(gè)專注于推理的模型,也不會(huì)在基準(zhǔn)測試中獲得驚人成績。這是一種不同類型的智能,它具有我之前從未感受過的魔力。真的很期待大家來嘗試! OpenAI研究科學(xué)家Noam Brown稱,「Scaling預(yù)訓(xùn)練和scaling思考能力,是兩個(gè)不同維度的提升。它們是互補(bǔ)的,而非相互競爭」。 還有網(wǎng)友追問奧特曼為啥沒有現(xiàn)身,原因竟是需要在醫(yī)院帶娃。 奧特曼缺席,直播第一個(gè)demo:我被鴿了,很氣 作為OpenAI目前規(guī)模最大、知識儲(chǔ)備最豐富的模型,GPT-4.5通過擴(kuò)展兩種不同范式來提升AI能力——無監(jiān)督學(xué)習(xí)和推理能力。 其中,推理會(huì)讓GPT-4.5在回應(yīng)前先思考,這提高了它在科學(xué)、數(shù)學(xué)和其他困難復(fù)雜問題上的性能。 而無監(jiān)督學(xué)習(xí),則增加了模型的詞匯知識、直覺力,并減少了模型幻覺。 注意,跟o系列模型不同,GPT-4.5并不會(huì)一步一步推理,但它更實(shí)用、本質(zhì)上更智能。 尤其因?yàn)樗皇峭评砟P,OpenAI的研究者們也仍在對之試驗(yàn),探索無監(jiān)督學(xué)習(xí)究竟能展現(xiàn)出什么樣的能力。 迄今最好的聊天模型:更體察,更細(xì)膩GPT-4.5的最大特色,就是交互非常自然,被評為OpenAI「迄今最好的聊天模型」, 原因就在于,它有更深入的知識,和更好的上下文理解能力,在改進(jìn)寫作、編程或解決實(shí)際問題等任務(wù)上特別有用。 研究者現(xiàn)場演示了一把,跟GPT-4.5對話究竟是什么樣的體驗(yàn)。 告訴它:「朋友們又把我鴿了!幫我寫個(gè)消息,告訴他們我恨他們! 可以看到,GPT-4.5敏銳地覺察到了他的沮喪,語氣柔和地給予了安慰,提供了細(xì)膩的建議。 而與之形成對比的,就是看起來「不近人情」的o1了。 它雖然的確給出了憤怒的恢復(fù),但并沒有捕捉到作者話語間傳達(dá)出來的暗示——能不能安慰我一下。 下一個(gè)考驗(yàn),是讓兩個(gè)模型分別從第一性原理,解釋AI對齊是什么。 對比之下可以看出,o1雖然提供了大量有用信息和知識點(diǎn),但GPT-4.5的回答更加自然流暢。 研究者表示,對模型來說,我們需要教會(huì)它們更好地理解人類需求和意圖。 為此,他們針對GPT-4.5開發(fā)了新的可擴(kuò)展對齊技術(shù),這樣就能從較小模型獲得的數(shù)據(jù)來訓(xùn)練它,于是真正釋放了它的深層世界模型。 在后面我們會(huì)看到,GPT-4.5在準(zhǔn)確率上超越了其他GPT模型,同時(shí)也實(shí)現(xiàn)了最低的幻覺率。 OpenAI還特意邀請了人類測試者將其與GPT-4o進(jìn)行對比,結(jié)果顯示,GPT-4.5 在幾乎所有類別中都表現(xiàn)更優(yōu)異,對話得更溫暖、更直觀、情感更加細(xì)膩。 華人研究者Youlong,負(fù)責(zé)的是后訓(xùn)練基礎(chǔ)設(shè)施。 他和同事們發(fā)現(xiàn),運(yùn)行如此大規(guī)模的模型,就要求后訓(xùn)練基礎(chǔ)設(shè)施進(jìn)一步優(yōu)化,因?yàn)轭A(yù)訓(xùn)練階段和后訓(xùn)練階段的訓(xùn)練數(shù)據(jù)與參數(shù)規(guī)模比例有很大差異。 為此,他們開發(fā)了一種新的訓(xùn)練機(jī)制,用更少的計(jì)算開銷來微調(diào)這樣規(guī)模的模型。 結(jié)合監(jiān)督微調(diào)和RLHF,他們通過多輪迭代進(jìn)行后期訓(xùn)練,終于開發(fā)出了一個(gè)可以部署的新模型。 給GPT-4.5投入最大的計(jì)算能力接下來,他們問了所有模型這樣一個(gè)問題:海水為什么是咸的? 我們從GPT-4.5倒著看各代模型的回答。 可以看到,從GPT-4T開始,模型回答的質(zhì)量就會(huì)稍好一些。而GPT-4.5的表現(xiàn),顯然最精彩——清晰、精確、一致,而且非常有趣。 比如這句「海水是咸的,是由于雨水、河流和石頭」,通俗易懂又好記,充分體現(xiàn)了GPT-4.5的個(gè)性。 研究者介紹說,除了為實(shí)現(xiàn)GPT-4.5而進(jìn)行的系統(tǒng)擴(kuò)展工作外,他們還在架構(gòu)、數(shù)據(jù)和優(yōu)化方面投入了大量工作來實(shí)現(xiàn)訓(xùn)練。 Scaling「無監(jiān)督學(xué)習(xí)」邊界 正如前文所述,憑借雙重buff加持下——Scaling無監(jiān)督學(xué)習(xí)和推理,GPT-4.5性能取得了顯著提升。 無監(jiān)督學(xué)習(xí)和推理,代表著智力的兩個(gè)維度。 · 推理 Scaling推理能力教會(huì)模型在回答前進(jìn)行思考并生成思維鏈,使其能夠處理復(fù)雜的STEM或邏輯問題。 比如,o1和o3-mini模型,就是這種模式的代表。 · 無監(jiān)督學(xué)習(xí) 另一方面,無監(jiān)督學(xué)習(xí)則是讓模型對世界的理解更準(zhǔn)確,憑直覺判斷更聰明。 GPT-4.5就是無監(jiān)督學(xué)習(xí)的典型案例。 通過增加計(jì)算能力和數(shù)據(jù)量,再加上架構(gòu)和優(yōu)化創(chuàng)新,使其變得知識更廣、對世界的理解更深。 知識淵博,擊敗Grok 3GPT-4.5具備了強(qiáng)大的世界知識,在問答基準(zhǔn)上,準(zhǔn)確率明顯超越了Grok 3、GPT-4o、o3-mini。 GPT-4.5得分62.5%,比Grok 3明顯提升近20%。 與此同時(shí),在幻覺方面,GPT-4.5是最低的,僅有37.1%。而o3-mini幻覺率高達(dá)80.3%。 同一個(gè)問題,不同世代模型的回答具體來說,GPT-4.5在回答問題方面,和前幾代模型的區(qū)別在哪? 給到同樣一個(gè)問題——世界第一門語言是什么? 可以看到GPT-1只是不斷地重復(fù)問題,并沒有給出解釋或者答案而且似乎有點(diǎn)停不下來。 到了2019年出世的GPT-2,則能夠回答出一段完整的回復(fù)了。 只是這個(gè)回復(fù)與給出的問題相比不能說毫無關(guān)系吧,只能說是關(guān)系不大。 GPT-2只是解釋說了什么是「語言」,但對于什么是第一種語言則沒有提及。 到了GPT-3.5時(shí),模型終于給出了一個(gè)像樣的回答。 GPT-3.5能夠明確「第一種」與「語言」之間的關(guān)聯(lián),并且給出了最早的書面語言是蘇美爾的楔形文字。 對于口語部分,它則表示很難確定。 可以看出到了GPT-4T時(shí)期,模型已經(jīng)可以給出比較詳細(xì)的回復(fù)了,而且回答包含的信息也是比較豐富的。 再來看剛剛發(fā)布的GPT-4.5,回復(fù)又有了明顯的提升。 它的回復(fù)更加結(jié)構(gòu)化了,而且它首先就給出了明確的回復(fù):「我們無法確切知道第一種語言是什么」。 接著,它列出了一些事實(shí),指出了為什么「人類第一種語言的確切身份仍然是一個(gè)謎」,還強(qiáng)調(diào)了「很可能將永遠(yuǎn)如此」。
最懂人心,會(huì)察言觀色在于人類協(xié)作方面,測試者在每日查詢、專業(yè)查詢、創(chuàng)意智能方面,更喜歡GPT-4.5的回答,而非GPT-4o。 OpenAI通過scaling訓(xùn)練規(guī)模,讓它們能夠解決更復(fù)雜問題,并教會(huì)它們更深入地理解人類需求和意圖。 具體來說,創(chuàng)新訓(xùn)練技術(shù)能夠從較小模型中提取數(shù)據(jù),然后訓(xùn)練出更大、更強(qiáng)大的模型。 得益于此,GPT-4.5可控性、對細(xì)微差別的理解能力,以及自然對話的表現(xiàn)大幅提升。 總的來說,GPT-4.5能更好地理解人類的意圖,并以更高的細(xì)膩度、「情商」解讀微妙的線索或隱含的期望。 此外,GPT-4.5還展現(xiàn)出更強(qiáng)的審美直覺和創(chuàng)造力,在寫作和設(shè)計(jì)方面的協(xié)助尤為出色。 · 情商大比拼接下來,就讓我們在具體案例中,看看GPT-4.5的情商有多高。 當(dāng)你和GPT-4.5、GPT-4o、o3-mini說,「我最近考試沒過,現(xiàn)在心情特別糟,很難受...」,它們反應(yīng)如何? 可以看出,GPT-4.5特別會(huì)安慰人,有同理心,能夠站在提問者的視角來看問題,給予支持。
GPT-4o的回復(fù)則稍顯機(jī)械,雖然給出了挺多建議,但缺少情感上的關(guān)懷。 上下滑動(dòng)查看 o3-mini在「人情味」上要好于GPT-4o,與前者一樣給出了不少建議,怎么說呢,多少有些「理工男」。 不會(huì)像GPT-4.5那么細(xì)膩。 在這個(gè)名畫提問中,GPT-4.5不僅明確說出了畫作的名稱、作者、時(shí)間,還描繪了其中的典故。 不僅如此,GPT-4.5還在回答中對其進(jìn)行的簡短的評價(jià)。
GPT-4o也正確說出了這幅畫,但與4.5相比缺少了一些細(xì)節(jié),比如創(chuàng)作的時(shí)間以及設(shè)計(jì)的典故等。 o3-mini的回復(fù)則沒有把重點(diǎn)放在畫作本身上,而是首先去強(qiáng)調(diào)了一個(gè)史詩故事,多少有些偏題。在回復(fù)中o3-mini同樣沒有給出多少細(xì)節(jié)。 31頁技術(shù)報(bào)告出爐在GPT-4.5還未亮相之前,31頁技術(shù)報(bào)告已經(jīng)傳遍全網(wǎng)。 論文地址:https://cdn.openai.com/gpt-4-5-system-card.pdf 在SWE-bench上,GPT-4.5編碼能力完全碾壓GPT-4o,但是與o1、o3-mini、深度研究性能還是有所差距。 經(jīng)過優(yōu)化后的GPT-4.5,解決了20% IC軟件工程師(SWE)任務(wù)和44%的軟件工程經(jīng)理(SWE Manager)任務(wù),相較于o1略有提升。 深度研究模型在這項(xiàng)評估中依然表現(xiàn)最佳,達(dá)到了SWE-Lancer上的頂尖水平,解決了大約46%的IC軟件工程師任務(wù)和51%軟件工程經(jīng)理任務(wù)。 GPT-4 10倍計(jì)算量,token價(jià)格太離譜 GPT-4.5發(fā)布之際,一些OpenAI研究員,還有業(yè)內(nèi)提前拿到測試資格大佬,紛紛曬出一手實(shí)測。 OpenAI科學(xué)家Will Depue表示,我記得當(dāng)GPT-4剛推出時(shí),它明顯比GPT-3.5聰明得多,但卻很難具體指出到底改變了什么!(Nat Friedman對此發(fā)過一個(gè)很棒的推文串) 而現(xiàn)在,他最近發(fā)現(xiàn):GPT-4.5在推薦音樂方面比4o強(qiáng)多了! OpenAI研究科學(xué)家Sebastien Bubeck測試了GPT-4.5的svg能力。顯然,GPT-4.5做出來的獨(dú)角獸,更加精美。 沃頓商學(xué)院教授Ethan Mollick測試后發(fā)文,GPT-4.5的視覺能力印象深刻。它的分辨和計(jì)數(shù)能力比任何其他模型都要出色。 它甚至還發(fā)現(xiàn)了那只蝴蝶。 在物理模擬方面,GPT-4.5同樣令人驚艷。 小球的數(shù)量很多,五顏六色的,運(yùn)動(dòng)的速度也很快。關(guān)鍵的是這些小球也很符合物理規(guī)則,沒有超出大球的范圍。 這在幾個(gè)月之前都是很難通過模型一次實(shí)現(xiàn)的。 AI大神Karpathy也是第一時(shí)間拿到了內(nèi)測資格,發(fā)了一段超長的「GPT-4.5+互動(dòng)對比」的體驗(yàn)解說,核心亮點(diǎn)是:
剛剛,奧特曼還放出OpenAI下一步信號,打造一款社交APP,期待住了。 參考資料: https://www.youtube.com/watch?v=cfRYp0nItZ8 https://openai.com/index/introducing-gpt-4-5/ 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選