首頁 > 科技要聞 > 科技> 正文

Kimi的數(shù)學(xué)模型來了,這次甚至能挑戰(zhàn)高考。

差評 整合編輯:太平洋科技 發(fā)布于:2024-11-26 15:55

消停了一陣子之后,國內(nèi)又有大模型公司打榜 OpenAI 了。

這不, Kimi 最近推了個(gè)數(shù)學(xué)模型 k0-math ,號稱數(shù)學(xué)能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ,中高考、考研還有入門競賽題都能跟 o1 過過招。

該說不說, AI 模型開始 “ 炒作 ” 起數(shù)學(xué)能力,這事兒還挺稀奇,畢竟 AI 的數(shù)學(xué)能力拉胯也不是一天兩天了,連 strawberry 里有幾個(gè) r 都一直數(shù)不清。。。

就連 OpenAI 的 o1 發(fā)布時(shí),也沒有直說自己的數(shù)學(xué)多么多么厲害,只是點(diǎn)了一下推理能力罷了。

所以原本以長文本出圈兒的 Kimi ,這回突然卷起了數(shù)學(xué),世超確實(shí)很好奇,好奇這個(gè) k0-math 到底啥水平?

而世超在哥們兒的幫助下,也提前體驗(yàn)了一陣子,今天就借著 Kimi 數(shù)學(xué)版( 基于 k0-math 模型 )全量開放了,帶著大家瞧瞧這個(gè)數(shù)學(xué)模型有多少斤兩。

目前, Kimi 數(shù)學(xué)版只能在網(wǎng)頁版上用,入口倒是跟之前的普通版和探索版沒啥區(qū)別,但有一點(diǎn),Kimi 數(shù)學(xué)版只支持一輪對話。

像世超一上來,就直戳 Kimi 痛處翻了波舊賬,問它 “13.11% 和 13.8% ,哪個(gè)更大? ” 。(之前 Kimi 在這上面翻過車,說 13.11 的整數(shù)部分和小數(shù)部分都大于 13.8 。。 )

這次倒是學(xué)機(jī)靈了,而且很簡單的比數(shù)值大小, Kimi 數(shù)學(xué)版都用上了 “ 為了進(jìn)一步確認(rèn) ”“ 為了確保萬無一失 ”“ 經(jīng)過多種方法的驗(yàn)證 ” 這些話術(shù), kuku 輸出了二三十行。

只不過當(dāng)世超想再次追問的時(shí)候,出來的就不是 k0-math 模型了。

當(dāng)然,這只是個(gè)小插曲,既然官方都已經(jīng)把 k0-math 的實(shí)力挑明,那咱也不客氣了。

直接上今年高考新課標(biāo) 1 卷的數(shù)學(xué)題:已知 cos ( a+ β) =m , tanatan β =2 ,則 cos ( a- β) = ?

雖說解題過程有些波折,但總算是沒把最后 -3m 的答案弄錯(cuò)。

這個(gè)問題我同時(shí)也問了智譜清言和 ChatGPT ,答案倒是沒出入,但區(qū)別于一個(gè)步驟一個(gè)步驟列出來, Kimi 數(shù)學(xué)版給我一種,它真的在模仿人類思考的過程。

模型在推導(dǎo)的過程中,懷疑過自己的思路可能是錯(cuò)誤的,并且對此進(jìn)行了驗(yàn)證。

但下面這道概率題, Kimi 數(shù)學(xué)版就沒那么好運(yùn)了。

標(biāo)準(zhǔn)答案是 1/2 ,只有 ChatGPT 答對了。

世超看了眼 Kimi 數(shù)學(xué)版的推導(dǎo)過程, 24 種可能發(fā)生的情況它都列舉出來了,而且每一種情況誰輸誰贏也盤得清清楚楚,甚至最后還檢查了一遍。

但最大的問題出在,它把甲的總得分≥ 2 的次數(shù),漏數(shù)了一個(gè)。。。實(shí)屬可惜。

咱再找一道 AMC 數(shù)學(xué)競賽的題目,給 Kimi 數(shù)學(xué)版試試。

一個(gè)集合由 6 個(gè)( 不是不同的 )正整數(shù)組成:1 、 7 、 5 、 2 、 5 和 X 。6 個(gè)數(shù)字的平均值( 算術(shù)平均值 )等于集合中的一個(gè)值。X 的所有可能值之和是多少?

這次世超還把豆包也加進(jìn)來了,同一道題,四個(gè)模型只有智譜清言的算錯(cuò)了。(正確答案是36)

還有個(gè)小插曲,本來世超想再給 Kimi 試一道競賽題,結(jié)果它直接反過來質(zhì)疑我。。試了好幾次都是這么個(gè)回答,不知道是系統(tǒng)的 bug ,還是它壓根就不會兒這題,干脆裝死。

有一說一,好幾道數(shù)學(xué)題試下來, Kimi 數(shù)學(xué)版確實(shí)給了我不少驚喜,特別是解題過程中展現(xiàn)出來的思考、推理的能力,又刷新了一波咱對 AI 模型數(shù)學(xué)能力的認(rèn)知。

只可惜幾何題一如既往的菜,只是一道初中級別的幾何選擇題,給 Kimi 數(shù)學(xué)版的 CPU 都快干燒了,結(jié)果還是錯(cuò)的答案。

至于為啥 Kimi 的 k0-math 模型能有這么大的突破,前段時(shí)間世超參加了一場月之暗面的媒體會,月之暗面的創(chuàng)始人楊植麟就告訴世超, k0-math 的成功很大概率要?dú)w功于一個(gè)叫做 COT ( Chain of Thought )思維鏈的技術(shù)。

太專業(yè)的術(shù)語咱也不在這拽了,大伙兒可以把這個(gè) COT 理解為, AI 模型模仿人類的大腦進(jìn)行邏輯推理,把復(fù)雜的任務(wù)拆解之后,再一步步地解決。把這個(gè)技術(shù)運(yùn)用到模型里,模型就能夠通過 “ 思考 ” 來完成任務(wù)并提高正確率。

而為啥先把這東西用在了一個(gè)數(shù)學(xué)模型上,楊植麟直接引用了伽利略的名言 “ 宇宙是由數(shù)學(xué)這門語言書寫而成的 ” 。

總之,就是希望先從數(shù)學(xué)問題入手,再將數(shù)學(xué)的思維泛化,從而去理解整個(gè)世界。

當(dāng)然,并不是說模型一旦用上了思維鏈就能得到正確的答案,但這個(gè)方式,目前確實(shí)可以提高模型對復(fù)雜任務(wù)的推理能力。

再舉個(gè)例子,咱讓 Kimi 數(shù)學(xué)版統(tǒng)計(jì) “ chaping debug the world ” 里,有幾個(gè)字母 “e” 。

先分別把 “ chaping ”“ debug ”“ the ”“ world ” 單獨(dú)拎出來,再挨個(gè)字母一個(gè)個(gè)查,方法雖然笨,但至少不會出錯(cuò)。

就這么說吧,這道簡單的數(shù)數(shù)題,世超試了一下,只有 Claude 和 Kimi 數(shù)學(xué)版數(shù)對了。

包括在 “ 我有一塊 1 米長的面包,每天吃一半,需要幾天才能把這塊面包吃完 ? ” 的問題中,在大部分 AI 給出永遠(yuǎn)吃不完的答案時(shí), Kimi 數(shù)學(xué)版覺得 “ 是有物理極限的 ” ,認(rèn)為分到了一納米就不能分了。。。

這種對任務(wù)拆解的能力,夸張到什么程度,即使你問它 1+1 等于多少, Kimi 數(shù)學(xué)版都能給你嘮半天,截圖根本截不完。

另外,在思維鏈的作用下,對糾正 AI 模型犯蠢、不會抓重點(diǎn)的老毛病也有一定效果。

像前段時(shí)間蘋果就發(fā)了篇論文,大概意思是說模型壓根就不會推理,隨便加幾個(gè)無關(guān)痛癢的干擾條件,模型的準(zhǔn)確率就會下降。

但世超這次分別拿 Kimi 數(shù)學(xué)版和豆包試了試,題目是:超市里,每袋大米售價(jià) 50 元,每瓶醬油售價(jià) 10 元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油,并且送給鄰居 1 袋大米和 2 瓶醬油,那么鮮蝦包購買大米比醬油多花了多少錢?

這道題,還特地加了 “ 送給鄰居 1 袋大米和 2 瓶醬油 ” 的陷阱。

豆包多少就有點(diǎn)不懂人情世故了,還把自個(gè)兒留存的大米和醬油單獨(dú)拎出來算。

反觀 Kimi 數(shù)學(xué)版,深知送出去的禮物潑出去的水。

反正測試下來, k0-math 的解題準(zhǔn)確率不能說百分百,但調(diào)用了思維鏈之后的邏輯推理過程,很大程度上提高了 Kimi 這個(gè)做題家的數(shù)學(xué)水平。

而且世超也發(fā)現(xiàn),除了 k0-math 外,國內(nèi)的幻方 DeepSeek 前兩天也搞了個(gè)推理模型 DeepSeek-R1-Lite ,同樣也是紙上水平媲美 o1 。

又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也好奇,之前不是還在長文本嗎,這怎么突然就卷起了推理能力了?

其實(shí),傳統(tǒng)的拼算力、拼數(shù)據(jù)在大模型領(lǐng)域,已經(jīng)遇到了一定的瓶頸,而靠著強(qiáng)化學(xué)習(xí),提高大模型的推理能力,已經(jīng)成了大伙們卷的新方向。

這強(qiáng)化學(xué)習(xí)說白了,就是在訓(xùn)練時(shí)讓 AI 自己試錯(cuò),最后摸索出正確答案。

像 Claude Sonnet 3.5 就是基于強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了代碼能力的提升。包括 Kimi 創(chuàng)始人楊植麟在前陣子的媒體分享會上,也無數(shù)次 cue 到了強(qiáng)化學(xué)習(xí),還說他們接下來會越來越關(guān)注基于強(qiáng)化學(xué)習(xí)的方法去繼續(xù)迭代。

最后,借用楊植麟的 “ 登月論 ” ,如果說,先前的長文本是通往 AGI 的第一步,那么現(xiàn)在讓 AI 學(xué)會思考,則是正式開啟了第二階段。

本文來源:差評

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av