DeepSeek-R1,正在接受全球網(wǎng)友真金白銀的檢驗。 花30秒用manim代碼制作解釋勾股定理的動畫,一次完成無錯誤。 為了玩上這樣的模型,有人花上10多萬元,組7臺M4 Pro Mac mini+1臺M4 Max Macbook Pro的家用超算。 總計496G顯存(64*7+48),才能跑起個4bit量化版,但屬實算得上“家用AGI”配置了。 另一個極端是選擇R1數(shù)據(jù)蒸餾版Qwen 1.5B小模型,小到瀏覽器就能跑,每秒能輸出60個tokens。 與此同時,各種榜單也在抓緊測試,紛紛跑出了結果。 R1橫掃各大榜單 首先是LiveBench,與LiveCodeBench一樣,題目是隨時間更新的,所以相對受認可。 R1的表現(xiàn)在o1-preview到o1之間,其中只有數(shù)據(jù)一項超過o1。 不過再帶上成本成本約1/30這個條件看,又是不一樣的感覺,給老哥整無語了。 唯一的抱怨是上下文窗口太短。 o1系列一戰(zhàn)成名的ARC-AGI,測試結果分為公開數(shù)據(jù)和私有數(shù)據(jù)兩部分。 DeepSeek R1在私有數(shù)據(jù)上解決了15.8%的問題,與DeepSeek-V3相比翻倍還多。 公開數(shù)據(jù)上更是解決了20.5%的問題,與DeepSeek-V3相比上漲約46%。 總的來看,DeepSeek-R1表現(xiàn)與o1-preview相近,但稍低。 但同樣,帶上幾毛錢就能解決一道題,o1系列至少要10塊錢這個背景來看,又是不一樣的感覺。 考驗任務規(guī)劃能力的PlanBench,同樣的劇本再次上演。 在開發(fā)者Xeophon自己的個人測試上,甚至超過了o1-preview。 同一個測試上,R1數(shù)據(jù)蒸餾的Qwen 32B,與DeepSeek-V3,GPT-4o和Gemini Flash處于同一水平。 最后,還有人從中看到新的創(chuàng)業(yè)機會。 誰來構建一個平臺,能輕松地在DeepSeek R1上進行OpenAI風格的強化微調。 至少在短期內,是一個巨會。 R1在正確數(shù)據(jù)和微調方法下,可能在特定任務上大幅提升。 參考鏈接:[1]https://x.com/alexocheema/status/1881561143736664180[2]https://x.com/reach_vb/status/1881809400995934640[3]https://livebench.ai/#/[2]https://x.com/arcprize/status/1881761987090325517[3]https://x.com/TheXeophon/status/1881443117787984265 文章來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選