在科技界,一天的時(shí)間足以改寫歷史。 DeepSeek R1用‘降維打擊’重構(gòu)了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕為王。 o3-mini的進(jìn)步可不是一點(diǎn)半點(diǎn),在數(shù)學(xué)代碼等基準(zhǔn)測(cè)試中,均拿下了最高的成績(jī)。 甚至,在‘物理模擬’高難度挑戰(zhàn)戰(zhàn)場(chǎng)上,o3-mini直接粉碎R1,展現(xiàn)出驚人的實(shí)力。 能夠清晰地看出,o3-mini具備更強(qiáng)的物理推理能力,DeepSeek表現(xiàn)出明顯的‘反重力’現(xiàn)象。 prompt:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically 在另一個(gè)演示中,更加復(fù)雜,不僅要考慮小球與墻壁的碰撞,還要考慮不同小球之間的相互碰撞。 prompt:Simulate multiple small balls bouncing inside a spinning rectangle. The balls should collide with each other and the walls 從單球反彈到多球碰撞,從簡(jiǎn)單物理到復(fù)雜系統(tǒng),OpenAI的仿佛在訴說(shuō)著‘王者,從未離場(chǎng)’。 教授Derya Unutmaz對(duì)o3 mini表現(xiàn)的進(jìn)步非常激動(dòng): o3-mini只需一次提示就能準(zhǔn)確生成符合物理定律的代碼!與此同時(shí),DeepSeek-R1對(duì)此卻顯得很吃力。 這場(chǎng)AI競(jìng)賽正在全速加速,后來(lái)居上者,拭目以待。目前,OpenAI明顯處于領(lǐng)先地位!’ 此外,在‘人類最后一場(chǎng)考試’的純文本測(cè)試集上,新模型03-mini(medium/high)在準(zhǔn)確率上超越了DeepSeek-R1。 奧特曼甚至自信的表示:‘不久,人類就需要另一場(chǎng)考試了……’ 然而,這只是OpenAI新模型的冰山一角。 奧特曼劇透o3-mini接下來(lái)還有更大的驚喜! o3-mini還有好東西,很快就會(huì)給你,我想我們把最好的留到了最后! 編碼吊打o1,最好的編程模型 在代碼補(bǔ)全基準(zhǔn)Codeforces排名中,相對(duì)o1系列模型,o3-mini進(jìn)步明顯。 而獨(dú)立于LLM提供商的性能基準(zhǔn)和定價(jià)排行,Artificial Analysis表示:‘o3-mini是從o1-mini向前邁出的一大步。’ 同時(shí),公布了o3 mini的初步結(jié)果,完整的基準(zhǔn)測(cè)試結(jié)果稍后推出:
人工分析質(zhì)量指數(shù)為89,與DeepSeek R1匹配,略低于o1
更便宜 - 每百萬(wàn)個(gè)token1.1美元/4.4美元的輸入/輸出定價(jià),低于許多 DeepSeek R1 API(高于DeepSeek的甲方R1 API定價(jià))
快速-與o1-mini的速度相似,為170個(gè)token/秒,盡管這意味著2000個(gè)代幣的‘思考’時(shí)間仍然需要 ~12 秒
其中人工分析質(zhì)量指數(shù)(Artifical Analyssi Quality Index)包含了MMLU、GPQA Diamond、Math-500和HumanEVal等多個(gè)測(cè)試基準(zhǔn)。 相關(guān)排名如下: AI初創(chuàng)企業(yè)CEO,Bindu Reddy,整體上o3擊敗了R1,特別是在編碼方面,讓人大吃一驚。 她認(rèn)為綜合考慮性能、速度和價(jià)格,o3-mini high是目前最好的大語(yǔ)言模型(LLM):
在編程上,o3-mini high大幅度領(lǐng)先o1、Sonnet以及其他模型
o3-mini high比Sonnet便宜2倍,比o1便宜15倍
o3-mini high比R1快約5倍
在所有類別中,o3-mini high僅次于01,是第2名最佳模型
具體結(jié)果如下: 對(duì)此,OpenAI研究員Clive Chan表示:‘我每天都在cursor中使用o3-mini,它絕對(duì)是最好的編程模型。我基本上完全信任它的Python代碼(不再有誤解/偷懶的問題),而且即使我當(dāng)前的項(xiàng)目涉及3種我不熟悉的編程語(yǔ)言,o3-mini也幫了大忙!’ 全網(wǎng)實(shí)測(cè) 那么,o3-mini真實(shí)實(shí)力究竟如何? 如下來(lái)自全網(wǎng)實(shí)測(cè)的最全演示,即可揭曉謎底。 o3-mini徹底掌握了arXiv OpenAI研究科學(xué)家Sebastien Bubeck表示,o3-mini是一個(gè)了不起的模型。 在理解和解析arXiv論文方面,o3-mini達(dá)到了全球獨(dú)一無(wú)二的水平,成為真正的科研伙伴! 下面是一個(gè)看似簡(jiǎn)單但會(huì)讓所有其他模型都感到困惑的問題,而o3-mini卻能給出極其有用的答案。 它完全說(shuō)到了點(diǎn)子上:與自收縮曲線的聯(lián)系、依賴于維度的界限,甚至還引用了相關(guān)論文。 下面這個(gè)例子是Sebastien在不同主題的另一個(gè)查詢。 有趣的是,o3-mini-high給出的參考文獻(xiàn)‘Bubeck and Ganguly’并不完全正確,但確實(shí)非常相關(guān)。 總的來(lái)說(shuō),它給出的參考文獻(xiàn)都是‘模糊準(zhǔn)確的’,可能會(huì)混淆作者/期刊/標(biāo)題,但令人驚訝的是這些引用仍然很有用。 他又表示,這些都是相當(dāng)冷僻的問題,能夠回答這兩個(gè)問題的論文少于100篇(實(shí)際上更接近約10篇)。 能有一個(gè)模型可以回答只有O(10)數(shù)量級(jí)的人類知道答案的問題,這確實(shí)令人驚嘆。 此外,Sebastien又演示了一個(gè)用o3-mini構(gòu)建‘我的世界’的演示。 AI物理新巔峰,輕松擊敗R1 Hyperbolic聯(lián)創(chuàng)Yuchen Jin測(cè)試后驚嘆道,o3-mini可能是目前最強(qiáng)的物理推理LLM! o3-mini竟然成功生成了四維超立方體(Tesseract)內(nèi)反彈小球的Python代碼,展現(xiàn)出驚人的物理推理和數(shù)學(xué)建模能力。 再來(lái)看R1的表現(xiàn),顯然不如o3-mini。 再來(lái)看o3-mini-high,demo中竟然翻車不如o3-mini? Yuchen Jin多次嘗試后發(fā)現(xiàn),o3-mini-high在這個(gè)任務(wù)上表現(xiàn)糟糕,甚至比一次性生成的o3-mini版本還差! 其中一個(gè)版本居然只生成了小球,沒有四維空間結(jié)構(gòu)…… 另一個(gè)很好展現(xiàn)o3-mini理解物理世界的demo。 ‘被o3-mini震撼到了(不僅僅是因?yàn)樗木幊棠芰Γ驗(yàn)樗情W電般的速度。 它僅用19秒就一次性生成了這四個(gè)演示。我從未見過類似的東西。一個(gè)新的AI時(shí)代已經(jīng)到來(lái)’。 沃頓商學(xué)院教授Ethan Mollick讓o3-mini-high首次挑戰(zhàn)生成動(dòng)態(tài)海洋風(fēng)暴Shader,沒想到竟然成功了! 18秒,克隆一個(gè)應(yīng)用 另一位OpenAI研究員Aidan Clark表示:‘o3-mini在智能和速度的組合方面令人難以置信,我不知道該說(shuō)什么,你只能自己去試試看了! 在下面demo中,Clark要求o3-mini用單個(gè)Python文件寫一個(gè)Twitter克隆應(yīng)用。 整個(gè)過程只用了8秒。 一句話,生成游戲 更令人驚嘆的是,開發(fā)者Alex Finn僅用1個(gè)提示,o3-mini便能生成完整的太空游戲。 用一句話制作的‘貪吃蛇’游戲。 另一個(gè)動(dòng)漫小人射擊游戲。 還有網(wǎng)友通過o3-mini-high制作的太陽(yáng)系3D模擬。 網(wǎng)友a(bǔ)di讓o1和o3-mini分別建造一個(gè)巨大的、令人驚嘆的、史詩(shī)般的漂浮城市。 OpenAI王者重歸 OpenAI的策略,已經(jīng)重新獲得了用戶的‘芳心’。 開發(fā)者M(jìn)ckay Wrigley已經(jīng)用o3-mini模型代替AI智能體和工作流中的o1模型。一切都正常工作,甚至有一些表現(xiàn)的更好,但是便宜了9倍,速度快了4倍。 他認(rèn)為:‘OpenAI對(duì)新模型的宣傳明顯不足——這絕對(duì)令人難以置信。o3& o3 Pro會(huì)很瘋狂。’ 根據(jù)Information報(bào)道,OpenAI2024年快速增長(zhǎng):
2024年,ChatGPT付費(fèi)訂閱用戶已達(dá)1550萬(wàn)。
企業(yè)的模型采用率增長(zhǎng)了7倍。
新推出的200美元/月Pro訂閱計(jì)劃,年收入已達(dá)3億美元。
網(wǎng)友Prakash,則在X上列出了OpenAI的各部分收入: ChatGPT Plus
月經(jīng)常性收入(MRR):3.33億美元
訂閱價(jià)格:20美元/月
月活用戶(MAU):1665萬(wàn)
ChatGPT Pro
月經(jīng)常性收入(MRR):2500萬(wàn)美元
訂閱價(jià)格:200美元/月
月活用戶(MAU):12.5萬(wàn)
ChatGPT總收入
月經(jīng)常性收入(MRR):3.58億美元
年經(jīng)常性收入(ARR):43億美元
API收入
每分鐘處理Token數(shù)量:14億
每年處理Token數(shù)量:735萬(wàn)億
每百萬(wàn)Token價(jià)格(以o3 mini輸入價(jià)格計(jì)算):1.1美元
年經(jīng)常性收入(ARR):8.09億美元
總收入 年經(jīng)常性收入(ARR):51億美元 他表示:‘有趣的是,API收入遠(yuǎn)小于ChatGPT訂閱收入,真正推動(dòng)增長(zhǎng)的還是消費(fèi)級(jí)應(yīng)用! 網(wǎng)友Andrew Gao表示Anthropic正在吃掉OpenAI的市場(chǎng)份額。 OpenAI在企業(yè)客戶中的份額從2023年的50%下降到了2024年的34%,具體如下: OpenAI早已與美國(guó)政府合作,確保AI領(lǐng)域的領(lǐng)先地位。 在參加特朗普的就職典禮并宣布‘星際之門’后,OpenAI首席執(zhí)行官奧特曼,連續(xù)第二周來(lái)到華盛頓特區(qū)。 就在近日,在國(guó)會(huì)山附近的一次非正式演示中,奧特曼向美國(guó)政府領(lǐng)導(dǎo)人、政策專家和記者展示了即將推出的技術(shù)。 目的不僅是展示美國(guó)如何最大化人工智能帶來(lái)的經(jīng)濟(jì)利益,還希望讓華盛頓的領(lǐng)導(dǎo)者提前了解即將到來(lái)的技術(shù)能力,以減少他們?cè)谖磥?lái)措手不及的可能性。 談到能夠自主完成現(xiàn)實(shí)世界任務(wù)的新型自主智能技術(shù)時(shí),奧特曼表示:[我的直覺是……對(duì)美國(guó)經(jīng)濟(jì)貢獻(xiàn),這些技術(shù)將占個(gè)位數(shù)百分比。 但與政府合作,并不是OpenAI唯一的選擇。 外媒報(bào)道稱,OpenAI為了實(shí)現(xiàn)增長(zhǎng),寄希望于更高級(jí)模型驅(qū)動(dòng)的ChatGPT的高價(jià)訂閱。 本文來(lái)源:新智元
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。