像人類一樣思考的 AI 離我們還有多遠(yuǎn)? 在道格拉斯·亞當(dāng)斯的科幻小說(shuō)《銀河系漫游指南》中,一個(gè)高緯度種族為了找到生命、宇宙以及任何事情的終極答案,設(shè)計(jì)一臺(tái)超級(jí)電腦「Deep Thought」來(lái)計(jì)算。 「Deep Thought」經(jīng)過(guò) 750 萬(wàn)年的運(yùn)算,得出了「42」這個(gè)答案。 而最科幻的往往是現(xiàn)實(shí),即便是回答極其復(fù)雜的問(wèn)題,AI 推理和思考可能只需要不到 1 分鐘。 OpenAI 今年 9 月發(fā)布推理模型 o1 后,人們開(kāi)始意識(shí)到,在追求「更大」之后,AI 開(kāi)始追求「更像」,推理能力成為 AI 進(jìn)化的下一個(gè)重要拐點(diǎn)。 今天,我們發(fā)現(xiàn)號(hào)稱「中國(guó)版 OpenAI」的智譜也同樣上線了一款類 o1 的推理模型 GLM-Zero-Preview(GLM-Zero 的初代版本 )。 雖然這幾個(gè)月已經(jīng)有多家公司紛紛上線推理模型,但在體驗(yàn)完 GLM-Zero-Preview 后,我發(fā)現(xiàn)它還是有些新東西。 想要體驗(yàn) GLM-Zero-Preview,方法很簡(jiǎn)單。 GLM-Zero-Preview 發(fā)布即上線,支持智譜清言用戶免費(fèi)使用,以及智譜開(kāi)放平臺(tái) API 調(diào)用,F(xiàn)在,登陸「智譜清言」網(wǎng)頁(yè)和 APP,進(jìn)入「Zero 推理模型」智能體,上傳文字或圖片即可免費(fèi)體驗(yàn)。 此外,GLM-Zero-Preview 的 API 也已同步上線智譜開(kāi)放平臺(tái) bigmodel.cn。 附上體驗(yàn)地址: 從「魷魚游戲」到量子力學(xué),這個(gè)國(guó)產(chǎn)版 o1 輕松拿捏 最近,在熱播韓劇《魷魚游戲2》中,一道雙手石頭剪刀布的游戲簡(jiǎn)單又刺激,這個(gè)游戲增加策略推理和心理層面的博弈,在以生死為賭注的壓力下,難度還會(huì)增加。 但如果我?guī)е?GLM-Zero-Preview 去玩這個(gè)游戲,活下來(lái)的概率就會(huì)大大增加。 「雙手石頭剪刀布是一個(gè)更為復(fù)雜的石頭剪刀布游戲版本。玩家開(kāi)始時(shí)使用雙手來(lái)表示石頭、剪刀或布的任意組合。在看到對(duì)手的選擇后,玩家必須同時(shí)舉起一只手,留下最終的選擇! 怎么玩這個(gè)獲勝概率更大?GLM-Zero-Preview 的回答詳盡且實(shí)用,羅列出各種提高獲勝效率的最優(yōu)解。 科學(xué)和玄學(xué)有時(shí)也只有一線之差。今年不少寺廟被擠爆,在上班和上進(jìn)之間選擇上香的蕓蕓眾生,求簽不難,但解簽卻要排上長(zhǎng)隊(duì),不想等怎么辦? 那你可以試試求助 GLM-Zero-Preview。不僅免費(fèi)效率高,而且解讀還非常有考究,AI 多少還是有點(diǎn)玄學(xué)在的。 「第七十七簽 呂后害韓信 中平 木有根來(lái)水有源,君當(dāng)自此究其源 莫隨道路人閑話,訟則終兇是至言」 談完玄學(xué),談?wù)軐W(xué)。 前些年,有一道辯論題風(fēng)靡一時(shí),「美術(shù)館著火了,一幅名畫和一只貓,只能救一個(gè)你選誰(shuí)?」在綜合考慮生命價(jià)值、道德原則及情感因素后,GLM-Zero-Preview 優(yōu)先選擇救貓。 反復(fù)輸入相同問(wèn)題,GLM-Zero-Preview 的答案始終如一,結(jié)果堅(jiān)定且邏輯自洽。 遇事不決,還有量子力學(xué)。那在經(jīng)典薛定諤貓實(shí)驗(yàn)中,貓究竟是死是活? 先觀察 GLM-Zero-Preview 的思考邏輯,再看它給出的答案「在經(jīng)典薛定諤貓實(shí)驗(yàn)中,貓?jiān)诤凶颖淮蜷_(kāi)之前處于既死又活的疊加態(tài),直到觀測(cè)時(shí)才確定其生死狀態(tài)。」 細(xì)心留意,你還可以對(duì)得出的結(jié)果進(jìn)行進(jìn)一步的引用和追問(wèn)。 在中文世界廣泛流傳的「愛(ài)因斯坦的謎題」同樣也可以作為考究 GLM-Zero-Preview 的邏輯推理能力。 有五個(gè)不同顏色的房子,每個(gè)房子里住著一個(gè)不同國(guó)籍的人。每個(gè)居民喜歡不同的飲料,抽不同的香煙,并養(yǎng)著不同種類的寵物。已知: 答案是德國(guó)人養(yǎng)魚,不知道你是否答對(duì)。 這道號(hào)稱世界上 98% 的人答不上來(lái)的難題,就這樣被 GLM-Zero-Preview 水靈靈地破解了。從繁瑣的推理步驟可以看出, GLM-Zero-Preview 的 CPU 在飛速運(yùn)轉(zhuǎn)但還是很清醒。 繼續(xù)乘勝追擊,讓我們上點(diǎn)強(qiáng)度。 五個(gè)海盜發(fā)現(xiàn)了 100 個(gè)金幣,每個(gè)海盜都必須投票決定如何分配金幣。如果海盜多于一位,只有在超過(guò)一半的海盜同意分配方式時(shí),金幣才會(huì)按照該方式分配。如果海盜少于一位,他會(huì)自己拿走所有金幣。每個(gè)海盜都希望保留盡可能多的金幣,同時(shí)還希望活命。海盜 1 如何保證自己能得到最大利益而又能保存生命。 「(97, 0, 1, 0, 2)」,面對(duì)海盜分金問(wèn)題,GLM-Zero-Preview 再次輕松拿捏。 相聲講究說(shuō)學(xué)逗唱,其中有個(gè)名段子叫「報(bào)菜名」。 那么問(wèn)題來(lái)了,可否讓 GLM-Zero-Preview 寫段素菜版的「報(bào)菜名」,你別說(shuō),GLM-Zero-Preview 三下五除二就給出了新版本。 對(duì)了,GLM-Zero-Preview 同樣支持多模態(tài)識(shí)別能力。 隨手拿一瓶飲料并讓 GLM-Zero-Preview「掃描」配料表,它能識(shí)別其中的科技與狠活嗎,我們拿前幾年爆火的飲料試了試,而該飲料也被調(diào)侃為「喝一口感覺(jué)是喝下整個(gè)元素周期表」。 它果然一一羅列出屏幕上的配料表,后續(xù)根據(jù)要求向我們展示了這些配料的作用。 大模型不擅長(zhǎng)數(shù)學(xué)?國(guó)產(chǎn) AI 已經(jīng) Next Level 推理模型 GLM-Zero 是 GLM 專注于增強(qiáng) AI 推理能力的模型系列,擅長(zhǎng)處理數(shù)理邏輯、代碼和需要深度推理的復(fù)雜問(wèn)題。 那讓我們先來(lái)一個(gè)說(shuō)簡(jiǎn)單也簡(jiǎn)單,說(shuō)難也難的「國(guó)際象棋盤與麥!箚(wèn)題。 若在國(guó)際象棋盤上放置麥粒,第 1 個(gè)棋格放 1 粒,此后每一棋格放置的麥粒數(shù)是前一棋格的 2 倍,問(wèn)放滿棋盤上所有棋格需要多少麥粒? 經(jīng)過(guò)一番思考,GLM-Zero-Preview 最終得出了正確答案,展現(xiàn)了其強(qiáng)大的計(jì)算能力。 此前蘋果發(fā)布的一篇論文指出,大模型并未真正理解數(shù)學(xué)概念。一旦題目加上干擾條件,模型的準(zhǔn)確率就會(huì)下降,我們也試了試。 從「打電話每分鐘 10 分錢,打 60 分鐘多少錢?」變成「打電話前 10 分鐘每分鐘 10 分錢,之后每分鐘 8 分錢,如此打 60 分鐘電話費(fèi)多錢?」,GLM-Zero-Preview 依然能夠準(zhǔn)確回答,而且還貼心地將分錢轉(zhuǎn)換成元,有點(diǎn)眼色。 面對(duì)更復(fù)雜的數(shù)學(xué)題,GLM-Zero-Preview 同樣游刃有余。 先來(lái)一道高考數(shù)學(xué)真題熱熱身: 在等差數(shù)列 {an}{an} 中,a1=−9a1=−9,a5=−1a5=−1。記 Tn=a1+a2+…+anTn=a1+a2+…+an,則數(shù)列 {Tn}{Tn}。 A. 有最大項(xiàng),有最小項(xiàng) B. 有最大項(xiàng),無(wú)最小項(xiàng) C. 無(wú)最大項(xiàng),有最小項(xiàng) D. 無(wú)最大項(xiàng),無(wú)最小項(xiàng) GLM-Zero-Preview 選 C 絕不是「物以 C 為貴」,而是給出思考過(guò)程,循循誘導(dǎo),甚至比一些 AI 學(xué)習(xí)機(jī)還要中用得多。 官方表示,在 2025 年考研數(shù)學(xué)一中,GLM-Zero 得分為 126,達(dá)到優(yōu)秀研究生水平。 為了避免答案不出錯(cuò),GLM-Zero-Preview 還會(huì)自動(dòng)啟用驗(yàn)證流程。 「機(jī)械廠加工車間有 85 名工人,平均每人每天加工大齒輪 16 個(gè)或小齒輪 10 個(gè),已知 2 個(gè)大齒輪與 3 個(gè)小齒輪配成一套,問(wèn)需分別安排多少名工人加工大、小齒輪,才能使每天加工的大小齒輪剛好配套?」 GLM-Zero 迅速給出了答案:「25 名工人加工大齒輪,60 名工人加工小齒輪」,做題水平一流。 哪怕再上一道 AMC 難題,它也能輕松拿捏。 「一個(gè)集合由 6 個(gè)( 不是不同的 )正整數(shù)組成:1 、 7 、 5 、 2 、 5 和 X 。6 個(gè)數(shù)字的平均值( 算術(shù)平均值 )等于集合中的一個(gè)值。X 的所有可能值之和是多少?」 這個(gè)問(wèn)題涉及五大點(diǎn),十幾種情況,GLM-Zero-Preview 綜合考慮了各種可能性,咔咔一頓輸出,給我一種它真的有在模仿人類思考的感覺(jué)。 作為智譜首個(gè)基于擴(kuò)展強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的推理模型,GLM-Zero-Preview 在 AIME 2024、MATH500 和 LiveCodeBench 評(píng)測(cè)中,效果與 OpenAI o1-preview 相當(dāng)。 例如,只需要輸入指令「幫我用 html 寫一個(gè)有趣的第一人稱射擊游戲」,GLM-Zero-Preview 便能迅速獨(dú)立完成以下游戲。 智譜很快將會(huì)推出正式版 GLM-Zero,將深度思考的能力從數(shù)理邏輯擴(kuò)展到更多更通用的技術(shù),繼續(xù)向 AGI 邁進(jìn)。 當(dāng)然,目前的 GLM-Zero-Preview 與 OpenAI 的 o3 模型還有不少的差距,但千里之行,始于足下,智譜說(shuō)了,未來(lái)將持續(xù)優(yōu)化迭代強(qiáng)化學(xué)習(xí)技術(shù)。 實(shí)際上,智譜等廠商全力押注推理模型,背后反映的是 GPT 時(shí)代正在過(guò)渡到推理 o 時(shí)代。 與以往基于 GPT 的模型不同,推理模型不是為了預(yù)測(cè)人類的想法而訓(xùn)練,而是通過(guò)訓(xùn)練「思維」構(gòu)建自己的思維框架,通過(guò)嚴(yán)謹(jǐn)?shù)耐评磉^(guò)程得出結(jié)論。 推理時(shí)代的到來(lái),標(biāo)志著 AI 或許開(kāi)始從「模仿」走向「思考」。 智譜推出的 GLM-Zero-Preview 同樣是這一趨勢(shì)的體現(xiàn)。 當(dāng)你觀察它解答問(wèn)題時(shí),你會(huì)發(fā)現(xiàn)它不是直接給出答案,而是展示出一個(gè)完整的推理過(guò)程 —— 提出假設(shè)、分析條件、推導(dǎo)結(jié)論,每一步深度思考都清晰可見(jiàn)。 未來(lái),隨著更多類似 o1 和 GLM-Zero-Preview 的模型涌現(xiàn), AI 正在朝著與人類同等的認(rèn)知水平邁出一大步,換言之,我們或許也正在見(jiàn)證一個(gè)重要的歷史轉(zhuǎn)折點(diǎn)—— 智譜的愿景是「讓機(jī)器像人一樣思考」,當(dāng)機(jī)器開(kāi)始真正「思考」的時(shí)候,人類對(duì)智能的理解也將達(dá)到一個(gè)新的高度。 本文來(lái)源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。