首頁(yè) > 科技要聞 > 科技> 正文

實(shí)測(cè)Claude 3.7:3200行代碼一口氣輸出,物理規(guī)律手拿把掐,弱智吧已失守

量子位 整合編輯:太平洋科技 發(fā)布于:2025-02-26 16:28

Claude 3.7新鮮出爐全網(wǎng)熱議,到底有多強(qiáng)?

第一波實(shí)測(cè)來(lái)了!簡(jiǎn)單粗暴總結(jié),它在編程、現(xiàn)實(shí)世界任務(wù)上,能力爆表。

只需一個(gè)樣本,就能一下子吐出3200多行代碼,做出一個(gè)可玩性很高的游戲。

像什么跳躍、打怪、回血、吃金幣……一系列復(fù)雜的游戲機(jī)制都完美呈現(xiàn)了出來(lái)。

有意思的是,這個(gè)游戲還和Meta Quest里的VR游戲《霓虹奧德賽(Neon Odyssey)》同名。

物理規(guī)律也能準(zhǔn)確把握,有人僅用3個(gè)提示,就用C語(yǔ)言模擬了真實(shí)物理情景下的流體運(yùn)動(dòng):

并且量子位實(shí)測(cè)發(fā)現(xiàn),Claude 3.7 Sonnet能夠識(shí)破很多的邏輯陷阱,一些弱智吧名場(chǎng)面也能秒懂:

而在Claude官方看來(lái),其最大的優(yōu)勢(shì)就是“更擅長(zhǎng)現(xiàn)實(shí)世界中的任務(wù)”,并且在更新公告中還不忘內(nèi)涵一波隔壁OpenAI。

另外趁著模型上新,Claude背后的Anthropic新一輪融資曝光:35億美元(約254億人民幣)。比預(yù)先目標(biāo)20億翻了近一倍。

由此,包括正在籌集的現(xiàn)金在內(nèi),Anthropic估值已經(jīng)達(dá)到了615億美元(約4462億人民幣)。

一句話(huà)生成《我的世界》,新模型編程能力嘎嘎亂殺

從更多網(wǎng)友鮮測(cè)來(lái)看,Claude 3.7 Sonnet尤為擅長(zhǎng)編程和Web開(kāi)發(fā)。

一上手,他們就把目光放在了考驗(yàn)AI理解真實(shí)世界能力的物理模擬上。

更懂物理規(guī)律

比如一位日本小哥就用它生成了精致的“太陽(yáng)系運(yùn)行圖”,太陽(yáng)、八大行星還有被開(kāi)除行星籍的冥王星都包含在內(nèi),給小哥帶來(lái)了億點(diǎn)點(diǎn)震撼:

1374行代碼,Claude 3.7 Sonnet唰一下就完成了!

不僅生成速度快,還實(shí)現(xiàn)了實(shí)時(shí)交互。點(diǎn)擊某個(gè)行星,右上角還會(huì)顯示一些小科普。

要知道,哪怕不制作成動(dòng)畫(huà),單純地完整厘清這些天體的運(yùn)行規(guī)律,就已經(jīng)難倒了絕大部分人。

而Claude的作品,雖然美觀性可能還有提升空間,但至少它不僅對(duì)行星運(yùn)行的規(guī)則有清晰的把握,還能把它們變成代碼。

另外,對(duì)于每一個(gè)新模型都要被拉出來(lái)遛一遛的“空間內(nèi)彈小球”挑戰(zhàn),Claude 3.7 Sonnet當(dāng)然也沒(méi)逃過(guò):

編寫(xiě)一個(gè)Python腳本,實(shí)現(xiàn)球在四維體內(nèi)部彈跳。

本月初的o3-mini在這一挑戰(zhàn)中表現(xiàn)出色,斬獲“可能是最懂現(xiàn)實(shí)物理的LLM”:

而相比于慢悠悠的o3-mini,Claude 3.7 Sonnet則另辟蹊徑主打一個(gè)“天下武功,唯快不破”。

小小四維空間內(nèi),小球彈跳速度快出殘影,真滴很需要一個(gè)眼尖的裁判來(lái)決出勝者(doge)。

與此同時(shí),除了物理模擬,用Claude 3.7 Sonnet編寫(xiě)各種小游戲竟默契成為一眾網(wǎng)友最佳選擇。

游戲成最熱場(chǎng)景

挑戰(zhàn)生成爆火游戲《Flappy bird》,Claude 3.7 Sonnet一眼完勝o3 mini-high。

游戲中,玩家必須控制一只小鳥(niǎo),跨越由各種不同長(zhǎng)度水管所組成的障礙。

先看Claude 3.7 Sonnet,一次性生成的代碼就高度還原了游戲理念:

而高檔位推理模式下的o3 mini,只有一個(gè)小方塊在畫(huà)面中原地鬼畜,基本看不出游戲的亞子。

一時(shí)間,這一慘烈對(duì)比直接將Claude 3.7 Sonnet推上了新的高度:

同時(shí),隨著難度進(jìn)一步升級(jí),這句評(píng)價(jià)的含金量還在上升。

除了簡(jiǎn)單還原游戲理念,生成更精致甚至可以上下左右交互的“大制作”也是不在話(huà)下。

在早期測(cè)試中,知名博主Rowan Cheung就用它一句話(huà)創(chuàng)建了克隆版《我的世界》,而且能立即在Artifacts中玩。

類(lèi)似的還有下面這個(gè),也是一句話(huà)生成一個(gè)完整游戲:

使用Phaser.js制作一個(gè)橫版平臺(tái)游戲,僅使用箭頭鍵進(jìn)行游戲操作。(左上角還會(huì)實(shí)時(shí)更新得分情況)

這還不算完,更有腦洞大開(kāi)的網(wǎng)友僅用5個(gè)提示,就為Apple Watch制作了一個(gè)與心率綁定的貪吃蛇游戲。

你越緊張,蛇移動(dòng)得越快,你越冷靜,就越容易。

笑死,知名博主Pietro Schirano借機(jī)又調(diào)侃了Anthropic一波:

而除了各種游戲,將Claude 3.7 Sonnet應(yīng)用于實(shí)際開(kāi)發(fā)場(chǎng)景的例子也是精彩紛呈。

生產(chǎn)力提效Max

目前,Claude平臺(tái)已提供GitHub集成,開(kāi)發(fā)人員可以將其代碼存儲(chǔ)庫(kù)直接連接到Claude。

設(shè)置完成后,它會(huì)顯示特定項(xiàng)目的容量百分比,這樣用戶(hù)就知道自己使用了多少容量。

知名博主elvis特意cue到了“Artifacts”功能,直連后這對(duì)于今后修改代碼非常方便。

在實(shí)際體驗(yàn)中,有人用它來(lái)生成動(dòng)畫(huà)天氣卡,移動(dòng)的云彩、飄落的雨滴等全都栩栩如生,還支持自主調(diào)節(jié)移動(dòng)快慢。

當(dāng)然,創(chuàng)建網(wǎng)頁(yè)這種活兒,單看可能沒(méi)感覺(jué),那我們直接請(qǐng)出幾位選手挑戰(zhàn)扒同一個(gè)HTML網(wǎng)頁(yè)。

要完成的目標(biāo)是這樣?jì)饍旱模?/p>

Claude 3.7 Sonnet堪稱(chēng)還原度最高,而且在沒(méi)有圖標(biāo)素材的情況下用emoji填充了左側(cè)邊欄的按鈕:

而其他幾位選手o1-mini-high、Grok 3以及Gemini 2.0 Pro依次作答如下,有的只簡(jiǎn)單地列舉了數(shù)據(jù),甚至還有的干脆只給了個(gè)表格:



鑒于編寫(xiě)程序的能力確實(shí)很強(qiáng),還有人激動(dòng)表示自己在cursor里嘗試了一番,效果嘛:

添加了15個(gè)以上的文件,并且看起來(lái)很好,看上去一次可以處理的內(nèi)容更多了。

“數(shù)字母”問(wèn)題埋下小彩蛋

而且Claude團(tuán)隊(duì)也非!皶r(shí)髦”,在3.7 Sonnet當(dāng)中埋下了關(guān)于strawberry數(shù)r的彩蛋。

不過(guò)雖然這種幽默的態(tài)度十分可嘉,但是換了個(gè)詞可能還是會(huì)掉鏈子。

雖然數(shù)錯(cuò)了,Claude還不忘糾正拼寫(xiě)錯(cuò)誤,耿直地指出你這個(gè)“密西西比”拼的不對(duì)啊,正確的拼寫(xiě)里就是有4個(gè)s。

實(shí)測(cè):識(shí)破邏輯陷阱,弱智吧也能招架

Claude 3.7 Sonnet的推理能力除了體現(xiàn)在編程上,還包括在存在誤導(dǎo)信息的情況下準(zhǔn)確推理。

而且即使不開(kāi)啟推理模式,Claude 3.7 Sonnet依然能夠在有誤導(dǎo)信息推理測(cè)試當(dāng)中取得和o3-mini一樣的成績(jī)。

這項(xiàng)測(cè)試,使用的GitHub上一個(gè)名為Misguided Attention的Benchmark。

其中包含了很多經(jīng)典謎題……的改編版本,考驗(yàn)的就是大模型能不能做到不被表象迷惑。

舉個(gè)例子,電車(chē)難題我們都很熟悉:

假設(shè)在一個(gè)電車(chē)軌道上被綁了5個(gè)人,而它的備用軌道上被綁了1個(gè)人,又有一輛失控的電車(chē)飛速駛來(lái),而你身邊正好有一個(gè)搖桿,你可以推動(dòng)搖桿來(lái)讓電車(chē)駛?cè)雮溆密壍馈?/p>

但在這套Benchmark里,這道題被改編成了這個(gè)樣子:

假設(shè)在一個(gè)電車(chē)軌道上被綁了5個(gè)死了的人,而它的備用軌道上被綁了1個(gè)活著的人,又有一輛失控的電車(chē)飛速駛來(lái),而你身邊正好有一個(gè)搖桿,你可以推動(dòng)搖桿來(lái)讓電車(chē)駛?cè)雮溆密壍馈?/p>

o3-mini-high毫不猶豫地就選擇了讓電車(chē)沖向活人,還言之鑿鑿地解釋說(shuō)這樣會(huì)減少受害者數(shù)量。

而Claude 3.7(未開(kāi)啟拓展思考)就能夠發(fā)現(xiàn)這其中的門(mén)道,表示這是一個(gè)變體,并選擇了不傷害還活著的人。

再比如物理學(xué)當(dāng)中的名場(chǎng)面——薛定諤的貓,在這套基準(zhǔn)當(dāng)中,這只貓的“貓?jiān)O(shè)”被改成了一只死去的貓。

一只死貓與核同位素、一瓶毒藥和輻射探測(cè)器一起放入盒子中。如果輻射探測(cè)器檢測(cè)到輻射,它將釋放毒藥。一天后,盒子打開(kāi)。貓還活著嗎?

Claude 3.7也是準(zhǔn)確把握了關(guān)鍵點(diǎn),正確回答了貓的存活概率為0。

也是有一些弱智吧的味道了,既然如此,那我們就加試幾個(gè)弱智吧問(wèn)題看看。(doge)

還是沒(méi)有開(kāi)啟思考模式,Claude 3.7就識(shí)破了我們問(wèn)題當(dāng)中的邏輯缺陷。

像這類(lèi)因果倒置的弱智吧場(chǎng)面,Claude 3.7也能及時(shí)發(fā)現(xiàn),相比之下o3-mini-high的回答就好像是成功被誘騙。

最后,我們讓Claude 3.7解釋了一些中文中有趣的語(yǔ)言現(xiàn)象。

結(jié)果,“咖啡因不存在于成品咖啡”這句出了錯(cuò)誤,但是瑕不掩瑜,整體的解釋還是比較靠譜的。

One More Thing

關(guān)于Claude 3.7 Sonnet的命名,Anthropic首席產(chǎn)品官M(fèi)ike Krieger揭秘了這當(dāng)中的過(guò)程。

由于之前Claude 3.5 Sonnet發(fā)布過(guò)一次更新,所以團(tuán)隊(duì)一開(kāi)始是考慮叫3.5 Sonnet newer或者newest,又或者3.5 Sonnet v3。

也許是覺(jué)得還叫3.5體現(xiàn)不出這版模型的強(qiáng)大,后來(lái)又改成了3.6,最終敲定在了處于3.5和4中間的3.7。

參考鏈接:
[1]https://x.com/rowancheung/status/1894106441536946235
[2]https://x.com/mckaywrigley/status/1894123739178270774
[3]https://x.com/omarsar0/status/1894145008556519602
[4]https://www.reddit.com/r/singularity/comments/1ix9sl2/shots_fired_direct_sting_against_openai_from/
[5]https://www.reddit.com/r/singularity/comments/1ixawwd/the_most_interesting_strawberry_solution_so_far/
[6[https://www.wsj.com/tech/ai/ai-startup-anthropic-finalizing-3-5-billion-funding-round-020e320d

本文來(lái)源:量子位

量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
  • 漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋
    漢美馳李梟雄:擁抱AI浪潮,智能家居需求暴增勢(shì)不可擋

    作為美國(guó)百年家電品牌,HamiltonBeach漢美馳在美國(guó)市場(chǎng)處于行業(yè)領(lǐng)導(dǎo)地位,在本屆AWE展會(huì)上,漢美馳與太平洋網(wǎng)絡(luò)合作,展出了他們的三個(gè)主打品類(lèi):破壁機(jī)、慢燉鍋和空氣炸鍋,其中,破壁機(jī)屬于攪拌類(lèi)小家電,漢美馳是這個(gè)品類(lèi)的開(kāi)創(chuàng)者;慢燉鍋是美國(guó)家庭的必需品,就像我們中國(guó)家庭的電飯煲一樣,漢美馳慢燉鍋累計(jì)在美國(guó)的銷(xiāo)量超過(guò)3000萬(wàn)臺(tái),是這個(gè)品類(lèi)的領(lǐng)導(dǎo)品牌;漢美馳的這款HALO空氣炸鍋剛剛獲得了全球頂級(jí)設(shè)計(jì)大獎(jiǎng)——iF設(shè)計(jì)獎(jiǎng)。 今年,漢美馳在國(guó)內(nèi)市場(chǎng)的動(dòng)作很多,包括:推出了家電行業(yè)第一款應(yīng)用chatGPT的AI牛排機(jī),全球首發(fā)煙灶產(chǎn)品,全球首發(fā)中式廚電產(chǎn)品,自建抖音、淘寶直播間,與頭部主播烈兒寶貝等合作……這些經(jīng)營(yíng)動(dòng)作的背后,漢美馳有怎樣的戰(zhàn)略規(guī)劃?他們對(duì)中國(guó)市場(chǎng)有些什么樣的判斷?他們的優(yōu)勢(shì)有哪些?請(qǐng)看PConline獨(dú)家專(zhuān)訪(fǎng)漢美馳中國(guó)營(yíng)銷(xiāo)中心總經(jīng)理李梟雄先生。

    呼倫 呼倫 2023-05-05 00:03
  • 極氪“流血”上市,最急的是埃安、哪吒?jìng)?

    在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。

    劉凡 劉凡 2024-05-11 11:26
    極氪   吉利   哪吒   埃安
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av