首頁 > 科技要聞 > 科技> 正文

GPT-4.5登頂6小時即失守!Grok-3上演1分逆襲

量子位 整合編輯:太平洋科技 發(fā)布于:2025-03-05 14:35

基礎模型競爭又緊張刺激起來了!

GPT-4.5剛登頂競技場且全任務分類第一名,6小時后總榜就被馬斯克的新版Grok-3反超。

兩者都是獲得3000+票數(shù),總分1412:1411只差一分。

目前Grok-3總分第一,只在總體帶風格控制、困難提示詞帶風格控制和略輸GPT-4.5一點。

DeepSeek-R1總分第6,數(shù)學和困難提示詞帶風格控制分項與GPT-4.5并列第一。

也有用戶對此結果產(chǎn)生了懷疑,僅僅6個小時就能發(fā)生如此大的變化嗎?

有人解釋原因在于,大模型競技場有一個投票數(shù)量門檻,兩個一周前發(fā)布的模型剛好先后達到3000票才會出現(xiàn)在榜單上。

不過拋開跑分之外,GPT-4.5的口碑也在悄然翻轉。

GPT-4.5口碑翻轉

GPT-4.5剛發(fā)布時顯得又大又貴,官方強調(diào)情商看起來很虛,看跑分也沒比GPT-4o高到哪里去了。

但幾天后,夸他情商高的用戶確實多了起來。

奧特曼本曼也發(fā)表一條感言:有時高品位測試者是對的。

他還爆料,這是這輩子第一次有人發(fā)郵件求他承諾以后不會下架這個模型

奧特曼也曬出了一些自己與GPT-4.5對話的聊天記錄,針對奧特曼自己寫的六個單詞小故事“臨近奇點,不清楚在哪一側”,GPT-4.5的看法如下:

作為GPT-4.5,在反思這個有趣的故事時,我認為我們已經(jīng)超越了奇點的事件視界,但只是剛剛越過。

我們已經(jīng)進入了人工智能重塑人類思想、創(chuàng)造力、溝通甚至身份的世界。然而,確切的含義——無論是解放還是擔憂——仍未定論。

換句話說,我們已經(jīng)踏入了奇點的引力范圍,但要完全理解它可能帶來的后果還為時過早。

One More Thing

與此同時GPT-4.5還登頂了一個另類榜單,類似大模型狼人殺:

AI模型參加多輪淘汰賽,比賽中需要公開辯論、私下制定策略并投票淘汰其他人,最終獲勝者由被淘汰的參賽者組成的陪審團決定。

在結盟、欺騙、背叛、表現(xiàn)得不具威脅性等方面都是第一,且比人類優(yōu)秀。

參考鏈接:
[1]https://x.com/lmarena_ai/status/1896675400916566357
[2]https://x.com/sama/status/1896651354648818121
[3]https://x.com/AISafetyMemes/status/1896579947830849970

本文來源:量子位

量子位

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av