趕在放假前,支棱起來(lái)的國(guó)產(chǎn) AI 大模型廠商井噴式發(fā)布了一大堆春節(jié)禮物。 前腳 DeepSeek-R1 正式發(fā)布,號(hào)稱(chēng)性能對(duì)標(biāo) OpenAI o1 正式版,后腳 k1.5 新模型也正式登場(chǎng),表示性能做到滿(mǎn)血版多模態(tài) o1 水平。、如果再加上此前強(qiáng)勢(shì)登場(chǎng)的智譜 GLM-Zero,階躍星辰推理模型 Step R-mini,星火深度推理模型 X1,年末上大分的國(guó)產(chǎn)大模型拉開(kāi)了真刀真槍的帷幕,也給以 OpenAI 為代表的海外廠商狠狠上了一波壓力。 DeepSeek-R1 :在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版 月之暗面 k1.5:數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力全面超越 GPT-4o 和 Claude 3.5 Sonnet 智譜 GLM-Zero:擅長(zhǎng)處理數(shù)理邏輯、代碼和需要深度推理的復(fù)雜問(wèn)題 階躍 Step-2 mini:極速響應(yīng),平均首字時(shí)延僅 0.17 秒,還有 Step-2 文學(xué)大師版 星火 X1:數(shù)學(xué)能力亮眼,有全面思考過(guò)程,拿捏小學(xué)、初中、高中、大學(xué)全學(xué)段數(shù)學(xué) 井噴不是偶然的爆發(fā),而是積蓄已久的力量,可以說(shuō),國(guó)產(chǎn) AI 模型在春節(jié)前夕的突圍,將有望重新定義 AI 發(fā)展的世界坐標(biāo)。 中國(guó)版「源神」爆火海外,這才是真·OpenAI 昨晚率先發(fā)布的 DeepSeek-R1 現(xiàn)在已經(jīng)上架 DeepSeek 官網(wǎng)與 App,打開(kāi)就能用。 9.8 和 9.11 哪個(gè)大以及 Strawberry 里有幾個(gè) r 的難題在第一次測(cè)試中就順利過(guò)關(guān),別看思維鏈略顯冗長(zhǎng),但正確答案事實(shí)勝于雄辯。 面對(duì)弱智吧難題「跳多高才能跳過(guò)手機(jī)上的廣告」的拷問(wèn), 響應(yīng)速度極快的 DeepSeek-R1 不僅能夠避開(kāi)語(yǔ)言陷阱,還提供了不少規(guī)避廣告的的建議,十分人性化。 幾年前,有一道名為「如果昨天是明天,今天就是星期五,實(shí)際今天是星期幾」的邏輯推理題走紅網(wǎng)絡(luò)。 在面臨同樣問(wèn)題的拷問(wèn)后,OpenAI o1 給出的答案是周日,DeepSeek-R1 則是周三,但就目前來(lái)看,至少 DeepSeek-R1 更靠近答案。 據(jù)介紹,DeepSeek-R1 在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版,理論上更偏向于理科生。 正好趕上小紅書(shū)上中美兩國(guó)網(wǎng)友在友好交流數(shù)學(xué)作業(yè),我們也讓 DeepSeek-R1 幫忙解疑答惑。 插個(gè)冷知識(shí),上回 DeepSeek 海外爆火時(shí)就有網(wǎng)友發(fā)現(xiàn),其實(shí) DeepSeek 也支持圖片識(shí)別,我們可以直接讓它分析試卷圖片。 攏共兩道題,第一道題選 C,第二道題選 A,并且,「自信滿(mǎn)滿(mǎn)」的 DeepSeek-R1 推測(cè)第二道題原題的選項(xiàng)中無(wú) 18,結(jié)合選項(xiàng)推測(cè)原題可能存在筆誤。 在隨后的線(xiàn)性代數(shù)證明題中,DeepSeek-R1 提供的證明步驟邏輯嚴(yán)謹(jǐn),同一道題目還提供了多種驗(yàn)證方法,展現(xiàn)出深厚的數(shù)學(xué)功底。 始于性能,陷于成本,忠于開(kāi)源。DeepSeek-R1 正式發(fā)布之后,也同步開(kāi)源模型權(quán)重。我宣布,來(lái)自中國(guó)東方的 DeepSeek 才是真正的 OpenAI。 據(jù)悉,DeepSeek-R1 遵循 MIT License,允許用戶(hù)通過(guò)蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。DeepSeek-R1 上線(xiàn) API,對(duì)用戶(hù)開(kāi)放思維鏈輸出,通過(guò)設(shè)置 model='deepseek-reasoner' 即可調(diào)用。 并且,DeepSeek-R1 訓(xùn)練技術(shù)全部公開(kāi),論文指路https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek\_R1.pdf DeepSeek-R1 技術(shù)報(bào)告里提到一個(gè)值得關(guān)注的發(fā)現(xiàn),那就是 R1 zero 訓(xùn)練過(guò)程里出現(xiàn)的「aha moment(頓悟時(shí)刻)」。 在模型的中期訓(xùn)練階段,DeepSeek-R1-Zero 開(kāi)始主動(dòng)重新評(píng)估初始解題思路,并分配更多時(shí)間優(yōu)化策略(如多次嘗試不同解法)。換句話(huà)說(shuō),通過(guò) RL 框架,AI 可能自發(fā)形成類(lèi)人推理能力,甚至超越預(yù)設(shè)規(guī)則的限制。 并且這也將有望為開(kāi)發(fā)更自主、自適應(yīng)的 AI 模型提供方向,比如在復(fù)雜決策(醫(yī)療診斷、算法設(shè)計(jì))中動(dòng)態(tài)調(diào)整策略。正如報(bào)告所說(shuō),「這一時(shí)刻不僅是模型的『頓悟時(shí)刻』,也是研究人員觀察其行為時(shí)的『頓悟時(shí)刻』! 除了主打的大模型,DeepSeek 的小模型同樣實(shí)力不俗。 DeepSeek 通過(guò)對(duì) DeepSeek-R1-Zero 和 DeepSeek-R1 這兩個(gè) 660B 模型的蒸餾,開(kāi)源了 6 個(gè)小模型。其中,32B 和 70B 型號(hào)在多個(gè)領(lǐng)域達(dá)到了 OpenAI o1-mini 的水準(zhǔn)。 并且,僅 1.5B 參數(shù)大小的 DeepSeek-R1-Distill-Qwen-1.5B 在數(shù)學(xué)基準(zhǔn)測(cè)試中超越了 GPT-4o 和 Claude-3.5-Sonnet,AIME 得分為 28.9%,MATH 得分為 83.9%。 HuggingFace 鏈接:https://huggingface.co/deepseek-ai 在 API 服務(wù)定價(jià)方面,號(hào)稱(chēng) AI 屆拼多多的 DeepSeek 也采用了靈活的階梯定價(jià):每百萬(wàn)輸入 tokens 根據(jù)緩存情況收費(fèi) 1-4 元,輸出 tokens 統(tǒng)一 16 元,再次大幅降低開(kāi)發(fā)使用成本。 DeepSeek-R1 發(fā)布以后,也再次在海外 AI 圈引起轟動(dòng),收獲了大量「自來(lái)水」。其中,博主 Bindu Reddy 更是給 Deepseek 冠上了開(kāi)源 AGI 和文明的未來(lái)之稱(chēng)。 出色的評(píng)價(jià)源于模型在網(wǎng)友的實(shí)際應(yīng)用中出色的表現(xiàn)。從 30 秒詳細(xì)闡釋勾股定理,到 9 分鐘深入淺出地講解量子電動(dòng)力學(xué)原理并提供可視化呈現(xiàn)。DeepSeek-R1 沒(méi)有任何差錯(cuò)。 甚至也有網(wǎng)友特別欣賞 DeepSeek-R1 所展示的思維鏈,認(rèn)為「像極了人類(lèi)的內(nèi)心獨(dú)白,既專(zhuān)業(yè)又可愛(ài)」。 英偉達(dá)高級(jí)研究科學(xué)家 Jim Fan 對(duì) DeepSeek-R1 給予了高度評(píng)價(jià)。他指出這代表著非美國(guó)公司正在踐行 OpenAI 最初的開(kāi)放使命,通過(guò)公開(kāi)原始算法和學(xué)習(xí)曲線(xiàn)等方式實(shí)現(xiàn)影響力,順便還內(nèi)涵了一波 OpenAI。 DeepSeek-R1 不僅開(kāi)源了一系列模型,還披露了所有訓(xùn)練秘密。它們可能是首個(gè)展示 RL 飛輪重大且持續(xù)增長(zhǎng)的開(kāi)源項(xiàng)目。 影響力既可以通過(guò)『ASI 內(nèi)部實(shí)現(xiàn)』或『草莓計(jì)劃』等傳說(shuō)般的項(xiàng)目實(shí)現(xiàn),也可以簡(jiǎn)單地通過(guò)公開(kāi)原始算法和 matplotlib 學(xué)習(xí)曲線(xiàn)來(lái)達(dá)成。 在深入研究論文后,Jim Fan 特別強(qiáng)調(diào)了幾個(gè)關(guān)鍵發(fā)現(xiàn): 完全由強(qiáng)化學(xué)習(xí)驅(qū)動(dòng),沒(méi)有任何 SFT(監(jiān)督微調(diào))。讓人聯(lián)想到 AlphaZero——從零開(kāi)始掌握圍棋、將棋和國(guó)際象棋,而不是先模仿人類(lèi)大師的棋步。這是論文中最關(guān)鍵的發(fā)現(xiàn)。使用硬編碼規(guī)則計(jì)算的真實(shí)獎(jiǎng)勵(lì)。 避免使用強(qiáng)化學(xué)習(xí)容易破解的學(xué)習(xí)獎(jiǎng)勵(lì)模型。隨著訓(xùn)練進(jìn)展,模型的思考時(shí)間逐步增加——這不是預(yù)先編寫(xiě)的程序,而是一種涌現(xiàn)特性!自我反思和探索行為的涌現(xiàn)。 GRPO 替代了 PPO:它移除了 PPO 的評(píng)論網(wǎng)絡(luò),改用多個(gè)樣本的平均獎(jiǎng)勵(lì)。這是一種減少內(nèi)存使用的簡(jiǎn)單方法。需要注意的是,GRPO 是作者團(tuán)隊(duì)提出的一種創(chuàng)新方法。 整體來(lái)看,這項(xiàng)工作展示了強(qiáng)化學(xué)習(xí)在大規(guī)模場(chǎng)景中實(shí)際應(yīng)用的開(kāi)創(chuàng)性潛力,并證明某些復(fù)雜行為可以通過(guò)更簡(jiǎn)單的算法結(jié)構(gòu)實(shí)現(xiàn),而無(wú)需進(jìn)行繁瑣的調(diào)整或人工干預(yù)。一圖勝千言,更明顯的對(duì)比如下: 就這樣,DeepSeek 再次在海內(nèi)外完成二次爆火,不僅是一次技術(shù)突破,更是中國(guó)乃至世界的開(kāi)源精神的勝利,也因此收獲了不少海外忠實(shí)擁躉。 新模型比肩 OpenAI o1,三個(gè)月三次突破,Kimi 讓海外集體沸騰 同一天上線(xiàn)的還有 Kimi v1.5 多模態(tài)思考模型。 自去年 11 月 Kimi 推出 k0-math 數(shù)學(xué)模型,12 月發(fā)布 k1 視覺(jué)思考模型以來(lái),這是第三次 K 系列的重要上新。 在短思考模式(short-CoT)的較量中,Kimi k1.5 展現(xiàn)出壓倒性?xún)?yōu)勢(shì),其數(shù)學(xué)、代碼、視覺(jué)多模態(tài)和通用能力全面超越了行業(yè)翹楚 GPT-4o 和 Claude 3.5 Sonnet。 在長(zhǎng)思考模式(long-CoT)的競(jìng)爭(zhēng)中,Kimi k1.5 的代碼和多模態(tài)推理能力已經(jīng)比肩 OpenAI o1 正式版,成為全球范圍內(nèi)首個(gè)在 OpenAI 之外實(shí)現(xiàn) o1 級(jí)別多模態(tài)推理性能的模型。 伴隨著模型的重磅發(fā)布,Kimi 還首次公開(kāi)了完整的模型訓(xùn)練技術(shù)報(bào)告。 GitHub 鏈接:https://github.com/MoonshotAI/kimi-k1.5 據(jù)官方介紹,k1.5 模型的核心技術(shù)突破主要體現(xiàn)在四個(gè)關(guān)鍵維度: 長(zhǎng)上下文擴(kuò)展。我們將 RL 的上下文窗口擴(kuò)展到 128k,并觀察到隨著上下文長(zhǎng)度的增加,性能持續(xù)提升。我們的方法背后的一個(gè)關(guān)鍵思想是,使用部分展開(kāi)(partial rollouts)來(lái)提高訓(xùn)練效率——即通過(guò)重用大量先前的軌跡來(lái)采樣新的軌跡,避免了從頭開(kāi)始重新生成新軌跡的成本。我們的觀察表明,上下文長(zhǎng)度是通過(guò) LLMs 持續(xù)擴(kuò)展RL的一個(gè)關(guān)鍵維度。 改進(jìn)的策略?xún)?yōu)化。我們推導(dǎo)出了 long-CoT 的 RL 公式,并采用在線(xiàn)鏡像下降的變體進(jìn)行穩(wěn)健的策略?xún)?yōu)化。該算法通過(guò)我們的有效采樣策略、長(zhǎng)度懲罰和數(shù)據(jù)配方的優(yōu)化進(jìn)一步得到改進(jìn)。 簡(jiǎn)潔的框架。長(zhǎng)上下文擴(kuò)展與改進(jìn)的策略?xún)?yōu)化方法相結(jié)合,為通過(guò) LLMs 學(xué)習(xí)建立了一個(gè)簡(jiǎn)潔的 RL 框架。由于我們能夠擴(kuò)展上下文長(zhǎng)度,學(xué)習(xí)到的 CoTs 表現(xiàn)出規(guī)劃、反思和修正的特性。增加上下文長(zhǎng)度的效果是增加了搜索步驟的數(shù)量。因此,我們展示了可以在不依賴(lài)更復(fù)雜技術(shù)(如蒙特卡洛樹(shù)搜索、價(jià)值函數(shù)和過(guò)程獎(jiǎng)勵(lì)模型)的情況下實(shí)現(xiàn)強(qiáng)大的性能。 多模態(tài)能力。我們的模型在文本和視覺(jué)數(shù)據(jù)上聯(lián)合訓(xùn)練,具有聯(lián)合推理兩種模態(tài)的能力。該模型數(shù)學(xué)能力出眾,但由于主要支持 LaTeX 等格式的文本輸入,依賴(lài)圖形理解能力的部分幾何圖形題則難以應(yīng)對(duì)。 k1.5 多模態(tài)思考模型的預(yù)覽版將陸續(xù)灰度上線(xiàn)官網(wǎng)和官方 App。值得一提的是,k1.5 的發(fā)布同樣在海外引起了巨大的反響。也有網(wǎng)友對(duì)這個(gè)模型不吝贊美之詞,讓海外見(jiàn)證了中國(guó) AI 實(shí)力的崛起。 實(shí)際上,年末國(guó)內(nèi)推理模型的密集發(fā)布絕非偶然,這是 OpenAI 去年 10 月發(fā)布 o1 模型在全球 AI 領(lǐng)域掀起的漣漪終于傳導(dǎo)至中國(guó)的顯著標(biāo)志。 短短數(shù)月從追趕到比肩,國(guó)產(chǎn)大模型用行動(dòng)證明了中國(guó)速度。 菲爾茲獎(jiǎng)得主、數(shù)學(xué)天才陶哲軒曾認(rèn)為這類(lèi)推理模型或許只需再經(jīng)過(guò)一兩輪迭代與能力提升,就能達(dá)到「合格研究生」的水準(zhǔn)。而 AI 發(fā)展的遠(yuǎn)景遠(yuǎn)不止于此。 當(dāng)前,我們正見(jiàn)證著 AI 智能體一個(gè)關(guān)鍵的轉(zhuǎn)型時(shí)刻。從單純的「知識(shí)增強(qiáng)」向「執(zhí)行增強(qiáng)」跨越,開(kāi)始主動(dòng)參與決策制定和任務(wù)執(zhí)行的過(guò)程。 與此同時(shí),AI 也在突破單一模態(tài)的限制,向著多模態(tài)融合的方向快速演進(jìn)。當(dāng)執(zhí)行遇上思考,AI才真正具備了改變世界的力量。 基于此,像人一樣思考的模型正在為 AI 的實(shí)際落地開(kāi)辟更多可能性。 表面上看,年末這波國(guó)內(nèi)推理模型的密集涌現(xiàn),或許帶有「中國(guó)式跟隨者創(chuàng)新」的影子。 但深入觀察就會(huì)發(fā)現(xiàn),無(wú)論是在開(kāi)源策略的深度,還是在技術(shù)細(xì)節(jié)的精確度上,中國(guó)廠商依然走出了一條獨(dú)具特色的發(fā)展道路。 文章來(lái)源:APPSO |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車(chē)市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門(mén)正在向造車(chē)新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車(chē)、廣汽埃安們的機(jī)會(huì)可能不多了。