DeeSeek掀起的滔天巨浪,讓全世界為之震顫。 短短幾天,從R1復(fù)現(xiàn)狂潮,到登頂美榜APP Store,再到科技股集體重挫,這股東方神秘力量威力盡顯。 R1在Hugging Face中的like,從今年1月起直線飆升。 就連奧特曼本人也不得不打破沉默,公開承認(rèn)DeepSeek的實力,并劇透了未來會有更多模型的發(fā)布: DeepSeek R1是一款令人印象深刻的模型,特別是考慮到他們在這個價格范圍內(nèi)能夠提供的能力。 我們顯然會推出更好的模型,而且有一個新的競爭對手確實令人振奮!我們會加快一些版本的發(fā)布,但主要還是專注于推進(jìn)OpenAI研究路線圖。我們堅信,現(xiàn)在比以往任何時候都更需要更多的算力來實現(xiàn)我們的使命。 未來,世界將會需要大量的 AI,并對下一代模型感到驚嘆。期待為大家?guī)?AGI 和更超前的技術(shù)。 與此同時,OpenAI首席研究官M(fèi)ark Chen也承認(rèn)道,DeepSeek的確獨(dú)立發(fā)現(xiàn)了一些o1的核心idea。 但對于外界的各種分析,他顯然是不認(rèn)可的。 Mark Chen表示,現(xiàn)代AI系統(tǒng)采用了「預(yù)訓(xùn)練」和「推理」兩大范式,提供了更靈活的優(yōu)化空間。 在降低成本的同時,提升模型性能,未來OpenAI可以在這兩個維度上持續(xù)發(fā)力。 而且,隨著蒸餾技術(shù)日趨成熟,他們還發(fā)現(xiàn)成本控制和性能提升已經(jīng)不再互相依賴。 換言之,OpenAI能以更低成本提供服務(wù),也不代表就要犧牲模型的能力。 OpenAI研究科學(xué)家、德?lián)渲窷oam Brow同樣站出來表示,「算法突破和Scaling是互補(bǔ)的,而不是相互競爭的。前者使性能與計算量的曲線發(fā)生彎曲,而后者則是在曲線上進(jìn)一步前進(jìn)」。 作為「對沖」,OpenAI今天特意冒泡,發(fā)布了一個專為美國政府打造的ChatGPT Gov。 中國AI撼動硅谷帝國 這場始于一篇22頁學(xué)術(shù)論文的風(fēng)暴,讓一個約200人的團(tuán)隊,用一個模型摧毀華爾街,改變了整個硅谷對AI的看法。 恐怕連DeepSeek自己也沒有想到,這將成為改寫AI競爭格局的一記重拳。 論文地址:https://arxiv.org/pdf/2501.12948 DeepSeek R1論文發(fā)布之初,并未引起所有人的警覺。隨著研究者逐漸消化論文內(nèi)容,一個令人震驚的事實浮出水面: R1竟以遠(yuǎn)低于科技巨頭的成本,達(dá)到了可與頂級AI模型較量的水平。 更令人瞠目的是,這一突破并非依賴昂貴的算力堆砌,而是通過精妙的工程設(shè)計實現(xiàn)的。 當(dāng)許多專家認(rèn)為中國AI在競賽中望塵莫及之時,R1的出現(xiàn)無異于平地驚雷。 紐約時報作者Kevin Roose就此發(fā)表了自己觀點(diǎn)——R1似乎正在動搖美國科技產(chǎn)業(yè)的三個主要的假設(shè)。 平民算力,也能顛覆游戲規(guī)則 首先,第一個假設(shè)是,要構(gòu)建頂尖AI模型,需要在強(qiáng)大的芯片和數(shù)據(jù)中心上投入巨額資金。 不得不說,這一點(diǎn)早已成為世界公認(rèn)的模型Scaling Law必備要素。 從微軟、Meta、谷歌,到xAI等硅谷巨頭們已經(jīng)斥資數(shù)百億美金,專為開發(fā)和運(yùn)行下一代AI打造專用的基礎(chǔ)設(shè)施。 在他們看來,這些投入遠(yuǎn)遠(yuǎn)不夠。 上周,特朗普曾官宣了「星際之門」項目,計劃4年內(nèi)砸5000億美金,在全美建造20座超算。 要知道,DeepSeek似乎只花費(fèi)了這個數(shù)額的一小部分就打造了R1。 雖R1具體訓(xùn)練金額未知,業(yè)界從V3 550萬美元推測,預(yù)計其成本要高于這一金額。 即便是R1訓(xùn)練成本是DeepSeek聲稱的10倍,考慮到其他成本,如工程師薪資或基礎(chǔ)研究成本,這個數(shù)字仍然比美國人工智能公司開發(fā)其最強(qiáng)大模型的支出要低幾個數(shù)量級。 「大」即是好,也不存在了! 其次,DeepSeek在成本上的突破,打破了近年來AI競賽中「越大越好」的觀點(diǎn)。 R1恰恰用實踐證明了,經(jīng)過精細(xì)的訓(xùn)練,相對較小的模型也可以媲美,甚至超越更大的模型。 反過來,這意味著,AI公司或許能以遠(yuǎn)低于此前預(yù)期的投資,就能實現(xiàn)非常強(qiáng)大的功能。 在研究論文中,揭示了一些關(guān)于R1實際構(gòu)建方式的細(xì)節(jié),包括「模型蒸餾」方面的一些前沿技術(shù)。 從這點(diǎn)可以看出,將大型AI模型壓縮成更小的模型,不僅運(yùn)行成本更低,同時不會損失太多性能。 此外,論文還有一些細(xì)節(jié)表明,將「普通」的AI語言模型轉(zhuǎn)換為更復(fù)雜的推理模型,只需要在其基礎(chǔ)上應(yīng)用RL算法,即可實現(xiàn)。 中國AI落后迷思,正被打破 第三,DeepSeek逆襲成功,也動搖了許多專家對中國在AI競賽中處于落后地位的觀點(diǎn)。 事實證明,美國的技術(shù)優(yōu)勢,可能并不如想象中的牢固。 多年來,許多AI專家一直認(rèn)為美國至少領(lǐng)先世界幾年,而且中國公司要快速復(fù)制美國的進(jìn)展是極其困難的。 截止目前,已有超500個DeepSeek衍生模型登陸HF 但DeepSeek的結(jié)果表明,中國擁有可以匹配或超越OpenAI,以及其他美國人工智能公司模型的先進(jìn)人工智能能力。 這場AI巨震帶來的不僅是技術(shù)突破,更是對全球AI格局的深刻洗牌。 該緊張的,是OpenAI們 當(dāng)整個市場還在為AI訓(xùn)練成本驟降而恐慌時,一些業(yè)內(nèi)資深玩家卻看到了不一樣的未來。 硅谷眾多業(yè)內(nèi)人士認(rèn)為,市場對DeepSeek最新模型的大規(guī)模拋售反應(yīng)過度。 他們認(rèn)為,該模型通過顯著降低AI成本,將推動AI的更廣泛應(yīng)用和價值實現(xiàn),從而持續(xù)維持市場對英偉達(dá)芯片的需求。 近期,前英特爾首席執(zhí)行官Pat Gelsinger用實際行動給出了答案,在周一買入了英偉達(dá)的股票。 他在LinkedIn上發(fā)文表示,「市場的反應(yīng)是錯誤的,降低AI成本將帶來市場規(guī)模的擴(kuò)張。DeepSeek是一項卓越的工程成就,將引領(lǐng)AI邁向更廣泛的商業(yè)應(yīng)用」。 英偉達(dá)也在周一表示,DeepSeek的創(chuàng)新將促進(jìn)其業(yè)務(wù)的發(fā)展。 DeepSeek是一項杰出的AI技術(shù)進(jìn)展,也是「測試時Scaling」的完美范例。這種推理運(yùn)算需要大量英偉達(dá)GPU和高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施的支持。 業(yè)內(nèi)專家TechInsights的G Dan Hutcheson分析更是令人深思。在他看來,DeepSeek技術(shù)突破對英偉達(dá)的影響有限,真正應(yīng)該擔(dān)心的是OpenAI這樣提供類似服務(wù)的公司。 而網(wǎng)友們在Mark Chen推文下面分享的真實體驗,正是這一分析的驗證。 圖解DeepSeek-R1 對于機(jī)器學(xué)習(xí)研發(fā)社區(qū)而言,DeepSeek-R1是尤為重要的一個里程碑: 它是一個開放權(quán)重模型,并提供了多個經(jīng)過知識蒸餾的輕量級版本 它不僅分享了訓(xùn)練方法,還深入探討了如何復(fù)制類似OpenAI o1這樣的推理模型的實現(xiàn)過程 在最近的一篇博客中,就職于AI初創(chuàng)Chere的機(jī)器學(xué)習(xí)研究工程師Jay Alammar,便通過圖解DeepSeek-R1的方式,分析了如何打造具有推理能力的大語言模型。 模型訓(xùn)練第一步的細(xì)節(jié)來自之前的DeepSeek-V3論文。 R1使用該論文中的基礎(chǔ)模型,并仍然經(jīng)過監(jiān)督微調(diào)(SFT)和偏好微調(diào)步驟,但其執(zhí)行方式有所不同。 1. 長鏈推理的監(jiān)督微調(diào)數(shù)據(jù) 這一過程包含了60萬個長思維鏈推理示例。 然而,想要獲取如此規(guī)模,并且還是人工標(biāo)注的這類數(shù)據(jù),既困難又昂貴。這就是為什么創(chuàng)建這些數(shù)據(jù)的過程成為第二個重要特點(diǎn)。 2. 一個臨時的高質(zhì)量推理大語言模型(但在非推理任務(wù)上表現(xiàn)較差) 這些數(shù)據(jù)是由R1的前身——一個專注于推理的相關(guān)模型創(chuàng)建的。 其靈感來自于另一款被稱為R1-Zero的模型。它的重要性不在于它是一個出色的通用大語言模型,而在于它僅需少量標(biāo)注數(shù)據(jù),通過大規(guī)模RL就能在解決推理問題方面表現(xiàn)優(yōu)異。 這個專業(yè)推理模型的輸出隨后被用于訓(xùn)練一個更全面的模型,使其能夠勝任其他非推理任務(wù),達(dá)到用戶對大語言模型的預(yù)期水平。 3. 使用大規(guī)模強(qiáng)化學(xué)習(xí)創(chuàng)建推理模型 3.1 大規(guī)模面向推理的強(qiáng)化學(xué)習(xí)(R1-Zero) 在這里,RL被用于創(chuàng)建臨時推理模型,該模型隨后用于生成監(jiān)督微調(diào)的推理示例。 而使這一切成為可能的關(guān)鍵在于,此前創(chuàng)建的DeepSeek-R1-Zero模型的實驗。 R1-Zero的獨(dú)特之處在于,它無需標(biāo)注的監(jiān)督微調(diào)訓(xùn)練集就能在推理任務(wù)上表現(xiàn)優(yōu)異,甚至可以與o1相媲美。 它的訓(xùn)練直接從預(yù)訓(xùn)練基礎(chǔ)模型通過RL過程進(jìn)行(無需監(jiān)督微調(diào)步驟)。 一直以來,數(shù)據(jù)始終是決定機(jī)器學(xué)習(xí)模型能力的關(guān)鍵要素。那么這個模型是如何打破這一定律的?這涉及兩個關(guān)鍵因素: (1)現(xiàn)代基礎(chǔ)模型已經(jīng)達(dá)到了質(zhì)量和能力的新高度(該基礎(chǔ)模型在14.8萬億高質(zhì)量token上進(jìn)行訓(xùn)練)。 (2)與普通的聊天或?qū)懽魅蝿?wù)相比,推理問題可以通過自動化方式進(jìn)行驗證和標(biāo)注。 讓我們通過一個例子來說明。以下是RL訓(xùn)練步驟中的一個典型提示詞: 編寫Python代碼,接受一個數(shù)字列表,返回排序后的列表,并在開頭添加數(shù)字42。 當(dāng)正在訓(xùn)練中的模型收到這個問題并生成答案后,有很多種方式都可以實現(xiàn)自動驗證:
用代碼檢查工具驗證生成內(nèi)容是否為合法的Python代碼
直接運(yùn)行Python代碼檢驗其執(zhí)行情況
用其他現(xiàn)代編程大語言模型生成單元測試來驗證代碼行為(它們本身無需具備推理能力)
進(jìn)一步測量代碼執(zhí)行時間,引導(dǎo)訓(xùn)練過程優(yōu)先選擇性能更優(yōu)的解決方案,而不僅僅是能夠解決問題的正確程序 通過這種方式,我們可以在訓(xùn)練過程中向模型提供類似問題,并獲得多種可能的解決方案。 通過自動檢查(無需人為干預(yù)),我們可以發(fā)現(xiàn):
第一個完成結(jié)果甚至不是代碼;
第二個確實是Python代碼,但并未解決問題;
第三個是一個可能的解決方案,但未能通過單元測試;
第四個才是正確的解決方案。 這些信號都可以直接用來改進(jìn)模型。當(dāng)然,這種改進(jìn)是通過大量示例(在mini-batch中)和連續(xù)的訓(xùn)練步驟來完成的。 這些獎勵信號和模型更新正是模型在RL訓(xùn)練過程中持續(xù)改進(jìn)任務(wù)表現(xiàn)的方式,正如論文圖2所示。 與這種能力的提升相對應(yīng)的是,生成響應(yīng)的長度變化——模型會生成更多的思考token來處理問題。 這個過程確實很有用,但R1-Zero卻面臨著其他影響其實用性的問題。 雖然DeepSeek-R1-Zero展現(xiàn)出強(qiáng)大的推理能力,并能自主形成令人驚喜的高效推理模式,但它仍然面臨著一些挑戰(zhàn)。比如,DeepSeek-R1-Zero在可讀性和語言混合等方面存在明顯的不足。 R1的目標(biāo)是成為一個更實用的模型。因此,它并非完全依賴RL過程,而是在我們前文提到的兩個方面加以運(yùn)用: (1)創(chuàng)建中間推理模型以生成SFT數(shù)據(jù)點(diǎn) (2)訓(xùn)練R1模型以提升推理和非推理問題的處理能力(使用其他類型的驗證器) 3.2 使用中間推理模型創(chuàng)建SFT推理數(shù)據(jù) 為了提升中間推理模型的實用性,需要對其進(jìn)行監(jiān)督式微調(diào)(SFT)訓(xùn)練,訓(xùn)練數(shù)據(jù)包含數(shù)千個推理問題示例(部分來自R1-Zero的生成和篩選)。論文將這些稱為「冷啟動數(shù)據(jù)」。 與DeepSeek-R1-Zero不同,DeepSeek-R1為了避免基礎(chǔ)模型在RL訓(xùn)練初期出現(xiàn)不穩(wěn)定的冷啟動現(xiàn)象,我們構(gòu)建并收集了少量思維鏈(CoT)數(shù)據(jù)來微調(diào)模型,將其作為初始RL代理。在數(shù)據(jù)收集過程中,我們探索了多種方法:采用長思維鏈作為示例進(jìn)行少樣本提示學(xué)習(xí),直接通過提示詞引導(dǎo)模型生成包含反思和驗證的詳細(xì)答案,以可讀格式采集DeepSeek-R1-Zero的輸出,并通過人工標(biāo)注進(jìn)行后期優(yōu)化。 然而,既然我們已經(jīng)擁有這些數(shù)據(jù),為什么還需要依賴RL過程呢? 這主要是數(shù)據(jù)規(guī)模的限制,F(xiàn)有數(shù)據(jù)集可能只有5,000個示例,但訓(xùn)練R1則需要600,000個示例。 而中間模型正是彌合了這一數(shù)量鴻溝,使得生成如此大規(guī)模的高質(zhì)量數(shù)據(jù)成為可能。 SFT訓(xùn)練示例 3.3 通用RL訓(xùn)練階段 這使得R1不僅在推理任務(wù)上表現(xiàn)卓越,在非推理任務(wù)上同樣可以取得優(yōu)異成績。 這一過程與前面提到的RL過程相似。但由于它延伸到非推理應(yīng)用領(lǐng)域,因此針對這類應(yīng)用的提示詞,采用了有效性和安全性獎勵模型(與Llama類似)。 4. 架構(gòu) 與GPT-2和GPT-3奠基時期的模型一樣,DeepSeek-R1是由Transformer decoder塊堆疊構(gòu)成的。 它總共包含61個decoder塊,其中前三個是全連接層(dense layer),其余則是專家混合(Mixture-of-Experts,簡稱MoE)層。 關(guān)于模型維度大小和其他超參數(shù)的配置如下: 本文來源:新智元 |
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選