Claude 3.7新鮮出爐全網(wǎng)熱議,到底有多強(qiáng)? 第一波實(shí)測(cè)來(lái)了!簡(jiǎn)單粗暴總結(jié),它在編程、現(xiàn)實(shí)世界任務(wù)上,能力爆表。 只需一個(gè)樣本,就能一下子吐出3200多行代碼,做出一個(gè)可玩性很高的游戲。 像什么跳躍、打怪、回血、吃金幣……一系列復(fù)雜的游戲機(jī)制都完美呈現(xiàn)了出來(lái)。 有意思的是,這個(gè)游戲還和Meta Quest里的VR游戲《霓虹奧德賽(Neon Odyssey)》同名。 物理規(guī)律也能準(zhǔn)確把握,有人僅用3個(gè)提示,就用C語(yǔ)言模擬了真實(shí)物理情景下的流體運(yùn)動(dòng): 并且量子位實(shí)測(cè)發(fā)現(xiàn),Claude 3.7 Sonnet能夠識(shí)破很多的邏輯陷阱,一些弱智吧名場(chǎng)面也能秒懂: 而在Claude官方看來(lái),其最大的優(yōu)勢(shì)就是“更擅長(zhǎng)現(xiàn)實(shí)世界中的任務(wù)”,并且在更新公告中還不忘內(nèi)涵一波隔壁OpenAI。 另外趁著模型上新,Claude背后的Anthropic新一輪融資曝光:35億美元(約254億人民幣)。比預(yù)先目標(biāo)20億翻了近一倍。 由此,包括正在籌集的現(xiàn)金在內(nèi),Anthropic估值已經(jīng)達(dá)到了615億美元(約4462億人民幣)。 一句話(huà)生成《我的世界》,新模型編程能力嘎嘎亂殺 從更多網(wǎng)友鮮測(cè)來(lái)看,Claude 3.7 Sonnet尤為擅長(zhǎng)編程和Web開(kāi)發(fā)。 一上手,他們就把目光放在了考驗(yàn)AI理解真實(shí)世界能力的物理模擬上。 更懂物理規(guī)律比如一位日本小哥就用它生成了精致的“太陽(yáng)系運(yùn)行圖”,太陽(yáng)、八大行星還有被開(kāi)除行星籍的冥王星都包含在內(nèi),給小哥帶來(lái)了億點(diǎn)點(diǎn)震撼: 1374行代碼,Claude 3.7 Sonnet唰一下就完成了! 不僅生成速度快,還實(shí)現(xiàn)了實(shí)時(shí)交互。點(diǎn)擊某個(gè)行星,右上角還會(huì)顯示一些小科普。 要知道,哪怕不制作成動(dòng)畫(huà),單純地完整厘清這些天體的運(yùn)行規(guī)律,就已經(jīng)難倒了絕大部分人。 而Claude的作品,雖然美觀性可能還有提升空間,但至少它不僅對(duì)行星運(yùn)行的規(guī)則有清晰的把握,還能把它們變成代碼。 另外,對(duì)于每一個(gè)新模型都要被拉出來(lái)遛一遛的“空間內(nèi)彈小球”挑戰(zhàn),Claude 3.7 Sonnet當(dāng)然也沒(méi)逃過(guò): 編寫(xiě)一個(gè)Python腳本,實(shí)現(xiàn)球在四維體內(nèi)部彈跳。 本月初的o3-mini在這一挑戰(zhàn)中表現(xiàn)出色,斬獲“可能是最懂現(xiàn)實(shí)物理的LLM”: 而相比于慢悠悠的o3-mini,Claude 3.7 Sonnet則另辟蹊徑主打一個(gè)“天下武功,唯快不破”。 小小四維空間內(nèi),小球彈跳速度快出殘影,真滴很需要一個(gè)眼尖的裁判來(lái)決出勝者(doge)。 與此同時(shí),除了物理模擬,用Claude 3.7 Sonnet編寫(xiě)各種小游戲竟默契成為一眾網(wǎng)友最佳選擇。 游戲成最熱場(chǎng)景挑戰(zhàn)生成爆火游戲《Flappy bird》,Claude 3.7 Sonnet一眼完勝o3 mini-high。 游戲中,玩家必須控制一只小鳥(niǎo),跨越由各種不同長(zhǎng)度水管所組成的障礙。 先看Claude 3.7 Sonnet,一次性生成的代碼就高度還原了游戲理念: 而高檔位推理模式下的o3 mini,只有一個(gè)小方塊在畫(huà)面中原地鬼畜,基本看不出游戲的亞子。 一時(shí)間,這一慘烈對(duì)比直接將Claude 3.7 Sonnet推上了新的高度: 同時(shí),隨著難度進(jìn)一步升級(jí),這句評(píng)價(jià)的含金量還在上升。 除了簡(jiǎn)單還原游戲理念,生成更精致甚至可以上下左右交互的“大制作”也是不在話(huà)下。 在早期測(cè)試中,知名博主Rowan Cheung就用它一句話(huà)創(chuàng)建了克隆版《我的世界》,而且能立即在Artifacts中玩。 類(lèi)似的還有下面這個(gè),也是一句話(huà)生成一個(gè)完整游戲: 使用Phaser.js制作一個(gè)橫版平臺(tái)游戲,僅使用箭頭鍵進(jìn)行游戲操作。(左上角還會(huì)實(shí)時(shí)更新得分情況) 這還不算完,更有腦洞大開(kāi)的網(wǎng)友僅用5個(gè)提示,就為Apple Watch制作了一個(gè)與心率綁定的貪吃蛇游戲。 你越緊張,蛇移動(dòng)得越快,你越冷靜,就越容易。 笑死,知名博主Pietro Schirano借機(jī)又調(diào)侃了Anthropic一波: 而除了各種游戲,將Claude 3.7 Sonnet應(yīng)用于實(shí)際開(kāi)發(fā)場(chǎng)景的例子也是精彩紛呈。 生產(chǎn)力提效Max目前,Claude平臺(tái)已提供GitHub集成,開(kāi)發(fā)人員可以將其代碼存儲(chǔ)庫(kù)直接連接到Claude。 設(shè)置完成后,它會(huì)顯示特定項(xiàng)目的容量百分比,這樣用戶(hù)就知道自己使用了多少容量。 知名博主elvis特意cue到了“Artifacts”功能,直連后這對(duì)于今后修改代碼非常方便。 在實(shí)際體驗(yàn)中,有人用它來(lái)生成動(dòng)畫(huà)天氣卡,移動(dòng)的云彩、飄落的雨滴等全都栩栩如生,還支持自主調(diào)節(jié)移動(dòng)快慢。 當(dāng)然,創(chuàng)建網(wǎng)頁(yè)這種活兒,單看可能沒(méi)感覺(jué),那我們直接請(qǐng)出幾位選手挑戰(zhàn)扒同一個(gè)HTML網(wǎng)頁(yè)。 要完成的目標(biāo)是這樣?jì)饍旱模?/p> Claude 3.7 Sonnet堪稱(chēng)還原度最高,而且在沒(méi)有圖標(biāo)素材的情況下用emoji填充了左側(cè)邊欄的按鈕: 而其他幾位選手o1-mini-high、Grok 3以及Gemini 2.0 Pro依次作答如下,有的只簡(jiǎn)單地列舉了數(shù)據(jù),甚至還有的干脆只給了個(gè)表格: 鑒于編寫(xiě)程序的能力確實(shí)很強(qiáng),還有人激動(dòng)表示自己在cursor里嘗試了一番,效果嘛: 添加了15個(gè)以上的文件,并且看起來(lái)很好,看上去一次可以處理的內(nèi)容更多了。 “數(shù)字母”問(wèn)題埋下小彩蛋而且Claude團(tuán)隊(duì)也非!皶r(shí)髦”,在3.7 Sonnet當(dāng)中埋下了關(guān)于strawberry數(shù)r的彩蛋。 不過(guò)雖然這種幽默的態(tài)度十分可嘉,但是換了個(gè)詞可能還是會(huì)掉鏈子。 雖然數(shù)錯(cuò)了,Claude還不忘糾正拼寫(xiě)錯(cuò)誤,耿直地指出你這個(gè)“密西西比”拼的不對(duì)啊,正確的拼寫(xiě)里就是有4個(gè)s。 實(shí)測(cè):識(shí)破邏輯陷阱,弱智吧也能招架 Claude 3.7 Sonnet的推理能力除了體現(xiàn)在編程上,還包括在存在誤導(dǎo)信息的情況下準(zhǔn)確推理。 而且即使不開(kāi)啟推理模式,Claude 3.7 Sonnet依然能夠在有誤導(dǎo)信息推理測(cè)試當(dāng)中取得和o3-mini一樣的成績(jī)。 這項(xiàng)測(cè)試,使用的GitHub上一個(gè)名為Misguided Attention的Benchmark。 其中包含了很多經(jīng)典謎題……的改編版本,考驗(yàn)的就是大模型能不能做到不被表象迷惑。 舉個(gè)例子,電車(chē)難題我們都很熟悉: 假設(shè)在一個(gè)電車(chē)軌道上被綁了5個(gè)人,而它的備用軌道上被綁了1個(gè)人,又有一輛失控的電車(chē)飛速駛來(lái),而你身邊正好有一個(gè)搖桿,你可以推動(dòng)搖桿來(lái)讓電車(chē)駛?cè)雮溆密壍馈?/p> 但在這套Benchmark里,這道題被改編成了這個(gè)樣子: 假設(shè)在一個(gè)電車(chē)軌道上被綁了5個(gè)死了的人,而它的備用軌道上被綁了1個(gè)活著的人,又有一輛失控的電車(chē)飛速駛來(lái),而你身邊正好有一個(gè)搖桿,你可以推動(dòng)搖桿來(lái)讓電車(chē)駛?cè)雮溆密壍馈?/p> o3-mini-high毫不猶豫地就選擇了讓電車(chē)沖向活人,還言之鑿鑿地解釋說(shuō)這樣會(huì)減少受害者數(shù)量。 而Claude 3.7(未開(kāi)啟拓展思考)就能夠發(fā)現(xiàn)這其中的門(mén)道,表示這是一個(gè)變體,并選擇了不傷害還活著的人。 再比如物理學(xué)當(dāng)中的名場(chǎng)面——薛定諤的貓,在這套基準(zhǔn)當(dāng)中,這只貓的“貓?jiān)O(shè)”被改成了一只死去的貓。 一只死貓與核同位素、一瓶毒藥和輻射探測(cè)器一起放入盒子中。如果輻射探測(cè)器檢測(cè)到輻射,它將釋放毒藥。一天后,盒子打開(kāi)。貓還活著嗎? Claude 3.7也是準(zhǔn)確把握了關(guān)鍵點(diǎn),正確回答了貓的存活概率為0。 也是有一些弱智吧的味道了,既然如此,那我們就加試幾個(gè)弱智吧問(wèn)題看看。(doge) 還是沒(méi)有開(kāi)啟思考模式,Claude 3.7就識(shí)破了我們問(wèn)題當(dāng)中的邏輯缺陷。 像這類(lèi)因果倒置的弱智吧場(chǎng)面,Claude 3.7也能及時(shí)發(fā)現(xiàn),相比之下o3-mini-high的回答就好像是成功被誘騙。 最后,我們讓Claude 3.7解釋了一些中文中有趣的語(yǔ)言現(xiàn)象。 結(jié)果,“咖啡因不存在于成品咖啡”這句出了錯(cuò)誤,但是瑕不掩瑜,整體的解釋還是比較靠譜的。 One More Thing 關(guān)于Claude 3.7 Sonnet的命名,Anthropic首席產(chǎn)品官M(fèi)ike Krieger揭秘了這當(dāng)中的過(guò)程。 由于之前Claude 3.5 Sonnet發(fā)布過(guò)一次更新,所以團(tuán)隊(duì)一開(kāi)始是考慮叫3.5 Sonnet newer或者newest,又或者3.5 Sonnet v3。 也許是覺(jué)得還叫3.5體現(xiàn)不出這版模型的強(qiáng)大,后來(lái)又改成了3.6,最終敲定在了處于3.5和4中間的3.7。 參考鏈接: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選