消停了一陣子之后,國內(nèi)又有大模型公司打榜 OpenAI 了。 這不, Kimi 最近推了個(gè)數(shù)學(xué)模型 k0-math ,號稱數(shù)學(xué)能力可以媲美 OpenAI 的 o1-mini 和 o1-preview ,中高考、考研還有入門競賽題都能跟 o1 過過招。 該說不說, AI 模型開始 “ 炒作 ” 起數(shù)學(xué)能力,這事兒還挺稀奇,畢竟 AI 的數(shù)學(xué)能力拉胯也不是一天兩天了,連 strawberry 里有幾個(gè) r 都一直數(shù)不清。。。 就連 OpenAI 的 o1 發(fā)布時(shí),也沒有直說自己的數(shù)學(xué)多么多么厲害,只是點(diǎn)了一下推理能力罷了。 所以原本以長文本出圈兒的 Kimi ,這回突然卷起了數(shù)學(xué),世超確實(shí)很好奇,好奇這個(gè) k0-math 到底啥水平? 而世超在哥們兒的幫助下,也提前體驗(yàn)了一陣子,今天就借著 Kimi 數(shù)學(xué)版( 基于 k0-math 模型 )全量開放了,帶著大家瞧瞧這個(gè)數(shù)學(xué)模型有多少斤兩。 目前, Kimi 數(shù)學(xué)版只能在網(wǎng)頁版上用,入口倒是跟之前的普通版和探索版沒啥區(qū)別,但有一點(diǎn),Kimi 數(shù)學(xué)版只支持一輪對話。 像世超一上來,就直戳 Kimi 痛處翻了波舊賬,問它 “13.11% 和 13.8% ,哪個(gè)更大? ” 。(之前 Kimi 在這上面翻過車,說 13.11 的整數(shù)部分和小數(shù)部分都大于 13.8 。。 ) 這次倒是學(xué)機(jī)靈了,而且很簡單的比數(shù)值大小, Kimi 數(shù)學(xué)版都用上了 “ 為了進(jìn)一步確認(rèn) ”“ 為了確保萬無一失 ”“ 經(jīng)過多種方法的驗(yàn)證 ” 這些話術(shù), kuku 輸出了二三十行。 只不過當(dāng)世超想再次追問的時(shí)候,出來的就不是 k0-math 模型了。 當(dāng)然,這只是個(gè)小插曲,既然官方都已經(jīng)把 k0-math 的實(shí)力挑明,那咱也不客氣了。 直接上今年高考新課標(biāo) 1 卷的數(shù)學(xué)題:已知 cos ( a+ β) =m , tanatan β =2 ,則 cos ( a- β) = ? 雖說解題過程有些波折,但總算是沒把最后 -3m 的答案弄錯(cuò)。 這個(gè)問題我同時(shí)也問了智譜清言和 ChatGPT ,答案倒是沒出入,但區(qū)別于一個(gè)步驟一個(gè)步驟列出來, Kimi 數(shù)學(xué)版給我一種,它真的在模仿人類思考的過程。 模型在推導(dǎo)的過程中,懷疑過自己的思路可能是錯(cuò)誤的,并且對此進(jìn)行了驗(yàn)證。 但下面這道概率題, Kimi 數(shù)學(xué)版就沒那么好運(yùn)了。 標(biāo)準(zhǔn)答案是 1/2 ,只有 ChatGPT 答對了。 世超看了眼 Kimi 數(shù)學(xué)版的推導(dǎo)過程, 24 種可能發(fā)生的情況它都列舉出來了,而且每一種情況誰輸誰贏也盤得清清楚楚,甚至最后還檢查了一遍。 但最大的問題出在,它把甲的總得分≥ 2 的次數(shù),漏數(shù)了一個(gè)。。。實(shí)屬可惜。 咱再找一道 AMC 數(shù)學(xué)競賽的題目,給 Kimi 數(shù)學(xué)版試試。 一個(gè)集合由 6 個(gè)( 不是不同的 )正整數(shù)組成:1 、 7 、 5 、 2 、 5 和 X 。6 個(gè)數(shù)字的平均值( 算術(shù)平均值 )等于集合中的一個(gè)值。X 的所有可能值之和是多少? 這次世超還把豆包也加進(jìn)來了,同一道題,四個(gè)模型只有智譜清言的算錯(cuò)了。(正確答案是36) 還有個(gè)小插曲,本來世超想再給 Kimi 試一道競賽題,結(jié)果它直接反過來質(zhì)疑我。。試了好幾次都是這么個(gè)回答,不知道是系統(tǒng)的 bug ,還是它壓根就不會兒這題,干脆裝死。 有一說一,好幾道數(shù)學(xué)題試下來, Kimi 數(shù)學(xué)版確實(shí)給了我不少驚喜,特別是解題過程中展現(xiàn)出來的思考、推理的能力,又刷新了一波咱對 AI 模型數(shù)學(xué)能力的認(rèn)知。 只可惜幾何題一如既往的菜,只是一道初中級別的幾何選擇題,給 Kimi 數(shù)學(xué)版的 CPU 都快干燒了,結(jié)果還是錯(cuò)的答案。 至于為啥 Kimi 的 k0-math 模型能有這么大的突破,前段時(shí)間世超參加了一場月之暗面的媒體會,月之暗面的創(chuàng)始人楊植麟就告訴世超, k0-math 的成功很大概率要?dú)w功于一個(gè)叫做 COT ( Chain of Thought )思維鏈的技術(shù)。 太專業(yè)的術(shù)語咱也不在這拽了,大伙兒可以把這個(gè) COT 理解為, AI 模型模仿人類的大腦進(jìn)行邏輯推理,把復(fù)雜的任務(wù)拆解之后,再一步步地解決。把這個(gè)技術(shù)運(yùn)用到模型里,模型就能夠通過 “ 思考 ” 來完成任務(wù)并提高正確率。 而為啥先把這東西用在了一個(gè)數(shù)學(xué)模型上,楊植麟直接引用了伽利略的名言 “ 宇宙是由數(shù)學(xué)這門語言書寫而成的 ” 。 總之,就是希望先從數(shù)學(xué)問題入手,再將數(shù)學(xué)的思維泛化,從而去理解整個(gè)世界。 當(dāng)然,并不是說模型一旦用上了思維鏈就能得到正確的答案,但這個(gè)方式,目前確實(shí)可以提高模型對復(fù)雜任務(wù)的推理能力。 再舉個(gè)例子,咱讓 Kimi 數(shù)學(xué)版統(tǒng)計(jì) “ chaping debug the world ” 里,有幾個(gè)字母 “e” 。 先分別把 “ chaping ”“ debug ”“ the ”“ world ” 單獨(dú)拎出來,再挨個(gè)字母一個(gè)個(gè)查,方法雖然笨,但至少不會出錯(cuò)。 就這么說吧,這道簡單的數(shù)數(shù)題,世超試了一下,只有 Claude 和 Kimi 數(shù)學(xué)版數(shù)對了。 包括在 “ 我有一塊 1 米長的面包,每天吃一半,需要幾天才能把這塊面包吃完 ? ” 的問題中,在大部分 AI 給出永遠(yuǎn)吃不完的答案時(shí), Kimi 數(shù)學(xué)版覺得 “ 是有物理極限的 ” ,認(rèn)為分到了一納米就不能分了。。。 這種對任務(wù)拆解的能力,夸張到什么程度,即使你問它 1+1 等于多少, Kimi 數(shù)學(xué)版都能給你嘮半天,截圖根本截不完。 另外,在思維鏈的作用下,對糾正 AI 模型犯蠢、不會抓重點(diǎn)的老毛病也有一定效果。 像前段時(shí)間蘋果就發(fā)了篇論文,大概意思是說模型壓根就不會推理,隨便加幾個(gè)無關(guān)痛癢的干擾條件,模型的準(zhǔn)確率就會下降。 但世超這次分別拿 Kimi 數(shù)學(xué)版和豆包試了試,題目是:超市里,每袋大米售價(jià) 50 元,每瓶醬油售價(jià) 10 元。如果鮮蝦包購買了 4 袋大米和 4 瓶醬油,并且送給鄰居 1 袋大米和 2 瓶醬油,那么鮮蝦包購買大米比醬油多花了多少錢? 這道題,還特地加了 “ 送給鄰居 1 袋大米和 2 瓶醬油 ” 的陷阱。 豆包多少就有點(diǎn)不懂人情世故了,還把自個(gè)兒留存的大米和醬油單獨(dú)拎出來算。 反觀 Kimi 數(shù)學(xué)版,深知送出去的禮物潑出去的水。 反正測試下來, k0-math 的解題準(zhǔn)確率不能說百分百,但調(diào)用了思維鏈之后的邏輯推理過程,很大程度上提高了 Kimi 這個(gè)做題家的數(shù)學(xué)水平。 而且世超也發(fā)現(xiàn),除了 k0-math 外,國內(nèi)的幻方 DeepSeek 前兩天也搞了個(gè)推理模型 DeepSeek-R1-Lite ,同樣也是紙上水平媲美 o1 。 又是 o1 系列,又是 k0-math 、 DeepSeek-R1-Lite ,可能有差友也好奇,之前不是還在長文本嗎,這怎么突然就卷起了推理能力了? 其實(shí),傳統(tǒng)的拼算力、拼數(shù)據(jù)在大模型領(lǐng)域,已經(jīng)遇到了一定的瓶頸,而靠著強(qiáng)化學(xué)習(xí),提高大模型的推理能力,已經(jīng)成了大伙們卷的新方向。 這強(qiáng)化學(xué)習(xí)說白了,就是在訓(xùn)練時(shí)讓 AI 自己試錯(cuò),最后摸索出正確答案。 像 Claude Sonnet 3.5 就是基于強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)了代碼能力的提升。包括 Kimi 創(chuàng)始人楊植麟在前陣子的媒體分享會上,也無數(shù)次 cue 到了強(qiáng)化學(xué)習(xí),還說他們接下來會越來越關(guān)注基于強(qiáng)化學(xué)習(xí)的方法去繼續(xù)迭代。 最后,借用楊植麟的 “ 登月論 ” ,如果說,先前的長文本是通往 AGI 的第一步,那么現(xiàn)在讓 AI 學(xué)會思考,則是正式開啟了第二階段。 本文來源:差評 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選