一夜之間,中國大模型在國際上狠狠秀了一波肌肉。 近日,國產(chǎn)大模型廠商 DeepSeek 宣布 DeepSeek-V3 首個版本上線并同步開源。 多項基準(zhǔn)測試成績顯示,DeepSeek-V3 超越 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,并在性能上與 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。 一手技術(shù)報告中提到,該模型的預(yù)訓(xùn)練階段也就用 2048 塊 GPU 訓(xùn)練了 2 個月,并且只花費了 557.6 萬美元。 低成本創(chuàng)造高價值。 堪稱國貨之光的 DeepSeek-V3 更是直接炸出了一大堆海外專業(yè) AI 人士的背書。 醒醒,Deepseek,你現(xiàn)在是真的火了。 附上體驗地址:chat.deepseek.com DeepSeek-V3 上手實測,這次真的不一樣 先來看看 DeepSeek 官方交出的亮眼成績單: 百科知識:DeepSeek-V3 在知識類任務(wù)(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 顯著提升,接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。 長文本:在長文本測評中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表現(xiàn)超越其他模型。 代碼:DeepSeek-V3 在算法類代碼場景(Codeforces),遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非 o1 類模型;并在工程類代碼場景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。 數(shù)學(xué):在美國數(shù)學(xué)競賽(AIME 2024, MATH)和全國高中數(shù)學(xué)聯(lián)賽(CNMO 2024)上,DeepSeek-V3 大幅超過了所有開源閉源模型。 中文能力:DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現(xiàn)相近,但在事實知識 C-SimpleQA 上更為領(lǐng)先。 DeepSeek-V3 發(fā)布之后,瞬間在海內(nèi)外引起了巨大的反響。 前 Google Search 成員 Deedy 直接放話,DeepSeek V3 代表了全球最強(qiáng)的開源大模型,沒跑了。 DeepSeek-V3 的高效益也得到了前 OpenAI 大神 Andrej Karpathy 的蓋章印證: 「(DeepSeek)這是否意味著開發(fā)前沿級 LLM 不需要大型 GPU 集群?并非如此,但你必須確保對資源的高效利用。這次的成果是一個很好的例證,說明在數(shù)據(jù)和算法方面仍有大量優(yōu)化空間可以挖掘。」 Meta AI 研究科學(xué)家田淵棟興奮地連發(fā)兩條推文: 「閱讀報告,發(fā)現(xiàn)他們從零開始對 H800 進(jìn)行的驚人破解 FP8 預(yù)訓(xùn)練、MoE、在非常有限的預(yù)算下實現(xiàn)強(qiáng)勁性能、通過 CoT 蒸餾進(jìn)行引導(dǎo)啟動……哇,這真是了不起的工作 」 X 網(wǎng)友 Tom Dörr 玩了一圈后直呼 Deepseek V3 太聰明了,甚至不需要解釋就懂我在說啥,感覺機(jī)器里藏個鬼似的」 別急,還有高手。 有網(wǎng)友直接將 4/8個M4 Mac mini 堆疊在一起來跑 DeepSeek-V3。還有開發(fā)者使用 DeepSeek-V3 三下五除二就做出了一個小游戲。 對比國外的 ChatGPT、Claude 之流,DeepSeek-V3 人人免費,且國內(nèi)現(xiàn)在就能用。我已經(jīng)替大伙簡單上手體驗了。 真的,DeepSeek-V3 響應(yīng)速度之快還是出乎我的意料。 前代 v2.5 版本每秒能生成 20 個 token(可以理解為差不多 7-8 個漢字),而新版本 v3 直接提速到每秒 60 個 token,速度直接飆升到了原來的 3 倍。 打個比方,v2.5 就像是正常人說話的節(jié)奏,而 v3 的速度已經(jīng)像是一個訓(xùn)練有聲的播音員在快速播報了。 不過,DeepSeek-V3 并不支持多模態(tài)輸入輸出,估計還得再耐心等待。而體驗下來,「9.8 和 9.11 哪個大」和「strawberry 里有多少個 r」已經(jīng)難不倒它了。 繼續(xù)上點強(qiáng)度。 「我有 6 個雞蛋,碎了 2 個,煎了 2 個,吃了 2 個,還剩下幾個?」 DeepSeek-V3 快是快了,但還是掉進(jìn)了腦筋急轉(zhuǎn)彎的陷阱(2 個),而 GPT-4o 則成功作答(4 個),這一回合,GPT-4o 完勝。 最近情商測試題在 X 平臺很火,我們也試了試。 看得出來,GPT-4o 和 DeepSeek-V3 似乎都很喜歡「42」這個數(shù)字。 很好,邏輯題也都沒有繞暈 GPT-4o 和 DeepSeek-V3。 「如果明天是晴天,那么我今天會去郊外露營,如果我今天去郊外露營,那么明天一定是晴天嗎?」 至于 DeepSeek-V3 會不會偏科,我們也試著讓 GPT-4o 給它以及 Claude-3.5-Sonnet 出一道數(shù)學(xué)題。 「設(shè)函數(shù) 片刻之后,DeepSeek-V3 以及 Claude-3.5-Sonnet 分別給出了各自的答案。 誰說 AI 只能燒錢,DeepSeek-V3 究竟做對了什么? 翻開 DeepSeek-V3 的技術(shù)報告,我通篇只看到了創(chuàng)新二字。 DeepSeek-V3 為自研 MoE 模型,671B 參數(shù),激活 37B,在 14.8T token 上進(jìn)行了預(yù)訓(xùn)練。 MoE 架構(gòu)不難理解,就像一個公司有不同部門的專家(如財務(wù)、技術(shù)、市場等),每個專家都精通自己的領(lǐng)域,但不需要處理所有工作。 MoE 模型中的每個「專家」也是如此,專門處理特定類型的任務(wù),遇上任務(wù)時,能夠智能地調(diào)動最合適的專家來解決特定問題。 基于其前身 DeepSeek-V2 的高效性,該模型集成了多頭潛在注意力(Multi-head Latent Attention, MLA)和 DeepSeekMoE 架構(gòu),從而實現(xiàn)了高效推理和成本優(yōu)化的訓(xùn)練。 關(guān)注 AI 第一新媒體,率先獲取 AI 前沿資訊和洞察 報告中還提到 DeepSeek-V3 引入了兩個關(guān)鍵創(chuàng)新。 一種無需輔助損失的負(fù)載平衡策略,以及一種多 Token 預(yù)測(Multi-Token Prediction, MTP)的訓(xùn)練目標(biāo)。 兩千塊 GPU,兩個月時間,DeepSeek 用最優(yōu)雅的方式證明了技術(shù)創(chuàng)新的重要性。 具體而言,該模型在 14.8 萬億多樣且高質(zhì)量的 Token 上完成預(yù)訓(xùn)練, 隨后通過監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)階段進(jìn)一步優(yōu)化性能。 預(yù)訓(xùn)練階段在 2048 個 H800 GPU 的集群上耗時不到兩個月,總計 266.4 萬個 GPU 小時。 通過優(yōu)化算法、框架與硬件的協(xié)同設(shè)計,DeepSeek-V3 的總訓(xùn)練成本為 557.6 萬美元,并且這一成本還包括預(yù)訓(xùn)練、上下文長度擴(kuò)展及后續(xù)訓(xùn)練階段。 技術(shù)報告的貢獻(xiàn)與致謝名單,清一色中文姓名 更多細(xì)節(jié)歡迎查詢技術(shù)報告: 對于開發(fā)者而言,DeepSeek-V3 API 服務(wù)定價也將調(diào)整為每百萬輸入 tokens 0.5 元(緩存命中)/ 2 元(緩存未命中),每百萬輸出 tokens 8 元。 更重要的是,追求普惠 AGI 的 DeepSeek 率先開放了采用 FP8 訓(xùn)練的 DeepSeek-V3 原生權(quán)重。 得益于開源社區(qū)的支持,SGLang 和 LMDeploy 已經(jīng)第一時間支持了 V3 模型的原生 FP8 推理,同時 TensorRT-LLM 和 MindIE 則實現(xiàn)了 BF16 推理。 此外,為方便社區(qū)適配和拓展應(yīng)用場景,DeepSeek 官方還提供了從 FP8 到 BF16 的轉(zhuǎn)換腳本。 模型權(quán)重下載和更多本地部署信息請參考: 可以說,今年的圣誕老人來自中國的 DeepSeek。 而這份源自中國的圣誕禮物,讓全球見證了 AI 的中國速度。 海外有 Meta,中國有 DeepSeek、智譜、面壁等國產(chǎn)廠商,中國在開源社區(qū)的存在感也因此在不斷攀升。 更多的廠商為中國開源盛世傾注一份心力的同時,也是在呼吁這種純粹和利他性的回歸。 如果說今天凌晨 ChatGPT 的再度宕機(jī)提醒我們 AI 模型多元化的重要性,那么下一次,我們將多出一個可靠的選擇。 那就是來自中國的 DeepSeek-V3。 One more thing 最近,ChatGPT o3 聊天記錄編造器爆火,我們也跟風(fēng)生成了一個聊天界面。 o3 都這么說了,這下真不能不信了(手動狗頭)。
本文來源:Appso |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選