首頁 > 科技要聞 > 科技> 正文

省錢也是技術(shù)活:解密DeepSeek的極致壓榨術(shù)

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2025-02-04 00:15

沒有GPU Poor,只有卷得不夠多。

DeepSeek-V3的橫空出世,用一組驚人的數(shù)據(jù)完美詮釋了這句話。

當o1、Claude、Gemini和Llama 3等模型還在為數(shù)億美元的訓(xùn)練成本苦惱時,DeepSeek-V3用557.6萬美元的預(yù)算,在2048個H800 GPU集群上僅花費3.7天/萬億tokens的訓(xùn)練時間,就達到了足以與它們比肩的性能

這個數(shù)字意味著什么?每萬億tokens僅需180K個H800 GPU小時,總計278萬 GPU小時的訓(xùn)練成本。而Llama 3.1的訓(xùn)練使用了16,384塊Nvidia H100 GPU,總計2100多萬GPU小時,翻了十倍。

通過671B的總參數(shù)量,在每個token激活37B參數(shù)的精準控制下,DeepSeek-V3用14.8萬億高質(zhì)量多樣化token,構(gòu)建出了一個能夠超越所有開源模型,直逼GPT-4和Claude-3.5的AI巨人。

推特上贊嘆一片。

OpenAI早期成員安德烈·卡帕西(Andrej Karpathy)就表示DeepSeek-V3的出現(xiàn)也許意味著不需要大型GPU集群來訓(xùn)練前沿的大語言模型。它表明大模型在數(shù)據(jù)和算法方面仍有很大的提升空間。

Scale AI創(chuàng)始人亞歷山大·王 (Alexander Wang)更表示,DeepSeek-V3帶來的辛酸教訓(xùn)是:當美國休息時,中國在工作,以更低的成本、更快的速度迎頭趕上,變得更強。

更多人認為,這是來自東方的魔法。但實際上這個魔法叫工程科學(xué)。

因為我們看完DeepSeek 53頁的技術(shù)報告,發(fā)現(xiàn)它驚人的低訓(xùn)練價格和其強悍的能力全部有跡可循。

在預(yù)訓(xùn)練階段,對性能影響有限的地方,他們選擇了極致壓縮;在后訓(xùn)練階段,對模型擅長的領(lǐng)域,他們又傾注全力提升。

在之前大家贊許爭論之聲未止,但“魔法”的面紗卻沒人掀開。

騰訊科技就幫你們抽取出其中最核心的那一部分,用更平實的語句解釋DeepSeek-V3的“省錢高效”背后的技術(shù)路徑。

訓(xùn)練的省錢法門:

能壓都壓,全不空轉(zhuǎn)

傳統(tǒng)之中,大模型訓(xùn)練降低成本主要靠兩招:壓縮、并行和提升硬件使用效率。

DeepSeek-V3這次所用的方法基本上就是猛揮這三板斧。

壓縮:從結(jié)構(gòu)到量化

壓縮很容易理解,就是把大的東西壓縮成小的。

對于模型訓(xùn)練來講,壓縮之后,運算單元(GPU和CPU)需要進行的運算數(shù)據(jù)量就會減少,運算速率必然會提升。另一個重要影響是,內(nèi)存占用和緩存會減少,這樣訓(xùn)練同樣大小的模型所需要的硬件規(guī)模也可以大幅減少。

而在訓(xùn)練模型的過程中,內(nèi)存占比最高的就是向量數(shù)據(jù)。

DeepSeek-V3這次一次用了兩種方法去壓縮向量數(shù)據(jù),一是MLA多層注意力架構(gòu),另一個就是FP8混合精度訓(xùn)練。

多層注意力MLA

多層注意力(Multi-Layer Attention, MLA)架構(gòu)設(shè)計的核心在于在Transformer架構(gòu)中引入動態(tài)層聚合機制。傳統(tǒng)Transformer中每一層都需要完整的計算和存儲,其中的Key和Value矩陣往往占用大量內(nèi)存空間。而MLA通過動態(tài)合并相鄰層的特征來減少計算量。

MLA通過壓縮和復(fù)用前序?qū)拥腒、V來減少內(nèi)存占用和計算量。具體來說,將連續(xù)幾層的K、V進行合并壓縮成一組共享表示。

打個比方,如果把注意力機制比作圖書檢索系統(tǒng),傳統(tǒng)方法相當于為每本書都建立完整的索引卡片(Key)和內(nèi)容摘要(Value),而DeepSeek的方法則像是建立了一個智能的分類系統(tǒng),不記具體信息,而是記一個簡單的"標簽"(壓縮的Key/Value),需要時再從標簽還原出詳細信息。就像把"計算機技術(shù),三樓右側(cè)第二排"簡化成"C2-3"這樣的編碼。

在這個過程中,DeepSeek使用了低秩壓縮技術(shù)(可以理解為將高維矩陣壓縮為若干個低維矩陣的乘積),將KV壓縮到512維度,遠小于原始維度。通過Key/Value的低秩壓縮使得的訓(xùn)練內(nèi)存占用減少了20-30%。

在Query端的優(yōu)化對訓(xùn)練效率也非常有意義。Query可以理解為用戶的檢索請求,傳統(tǒng)方法會為每個請求都分配大量計算資源。DeepSeek通過對Query的低秩壓縮,減少了計算過程中的激活內(nèi)存占用。雖然這種優(yōu)化對推理階段的影響相對較小,但在訓(xùn)練過程中發(fā)揮了重要作用,顯著提升了訓(xùn)練效率。這就像是優(yōu)化了圖書檢索系統(tǒng)的查詢處理機制,使得系統(tǒng)能夠更快速地處理大量并發(fā)的檢索請求。

而DeepSeek-V3巧妙的找到了一些平衡,讓這些壓縮技術(shù)幾乎沒有影響模型的性能。

FP8 混合精度訓(xùn)練框架

MLA方法是從DeepSeek V2開始就采用的方法,本次只是進行了優(yōu)化調(diào)整。而在DeepSeek-V3里引入了一種 FP8 混合精度訓(xùn)練框架,并首次在超大規(guī)模模型上驗證了其有效性。

FP8就是用8個二進制位來表示數(shù)字的格式,相比傳統(tǒng)的32位(FP32)和16位(FP16)格式,精度低了很多,但是占用空間小,計算快。

就像用"約350人"代替"準確的358人",犧牲一些精度來換取效率。雖然不夠精確,但在很多場景下已經(jīng)夠用了,而且能大大提升運算速度和節(jié)省內(nèi)存。

DeepSeek在采用FP8格式時,采用了"混合精度"的方案。在訓(xùn)練時,它的大部分核心計算內(nèi)核均采用 FP8 精度實現(xiàn)。包括前向傳播、激活反向傳播和 權(quán)重反向傳播都用了 FP8 作為輸入,并輸出 BF16 或 FP32 格式的結(jié)果。這一設(shè)計理論上使計算速度相較于原始的 BF16 方法提升了一倍。此外,DeepSeek中的向量激活值以 FP8 格式存儲,供反向傳播使用,從而顯著降低了內(nèi)存消耗。

針對某些對低精度計算敏感算子和一些低成本算子,比如嵌入模塊、輸出頭、MoE 門控模塊、歸一化算子以及注意力算子保留了FP16乃至FP32的精度。這樣能保證數(shù)據(jù)的精確性。同時為了保證數(shù)值穩(wěn)定性,DeepSeek還將主權(quán)重、權(quán)重梯度和優(yōu)化器狀態(tài)以更高精度存儲。

就像一個精打細算的主廚:日常備菜用普通的廚具就夠了,但到了關(guān)鍵的烹飪步驟,就會換上最好的刀具。

在模型訓(xùn)練中,大部分的前向運算都使用FP8來處理,這樣可以大大節(jié)省顯存和計算資源,讓整個訓(xùn)練過程跑得更快。但他們也很清楚哪些地方不能省:比如最后的調(diào)味、擺盤(對應(yīng)嵌入模塊、輸出頭等),就一定要用精密的工具(FP16或FP32精度)。

過去使用FP8模式的時候,最大的困難出現(xiàn)誤差累計。就像普通計算器(Tensor Cores的FP8)只能顯示到小數(shù)點后兩位,而科學(xué)計算器(CUDA核心的FP32)能顯示到小數(shù)點后六位。當你需要加很多個小數(shù)時,用普通計算器會逐漸累積誤差,最后結(jié)果可能差異很大。

(DeepSeek 提出的誤差積累解決方法)

DeepSeek發(fā)現(xiàn)了一個巧妙的解決方案:不等到最后再算總和,而是每加128個數(shù)就把當前結(jié)果轉(zhuǎn)移到科學(xué)計算器上繼續(xù)計算。為了讓這個過程不影響速度,他們利用了H800 GPU的特點:就像有兩個收銀員,當一個在結(jié)算購物籃的時候,另一個可以繼續(xù)掃描新商品。這樣在提高精度的同時,基本不影響處理速度。

這一策略使得模型訓(xùn)練速度大幅提升,畢竟核心計算能提升100%的速度,而顯存使用減少也非常明顯。并且模型最終的效果精度損失能做到小于0.25%,幾乎無損。

并行:對硬件的極限使用

要實現(xiàn)更快的訓(xùn)練速度,最有效的方法就是增加并行計算的規(guī)模,讓更多的計算單元同時處理不同的數(shù)據(jù)或任務(wù)。而在并行中,需要解決的問題就是盡可能的有效利用計算資源,讓它們都高負載的工作。

在系統(tǒng)架構(gòu)層面,DeepSeek就使用了專家并行訓(xùn)練技術(shù),通過將不同的專家模塊分配到不同的計算設(shè)備上同時進行訓(xùn)練,提升了訓(xùn)練過程中的計算效率。

但這種簡單的并行還遠不夠。DeepSeek這次對算力做的是極限壓榨:如果把訓(xùn)練過程當成一個工廠的話,他們主要做的就是不讓流水線上沒有閑人,再加上盡可能優(yōu)化工序,讓工件(數(shù)據(jù))進入流水線時直接就可以被操作(計算)。

DualPipe跨節(jié)點通信

優(yōu)化流水線流程的主要模式是DeepSeek創(chuàng)新的DualPipe方法。

在計算和通信重疊方面,DualPipe采用了類似于"多任務(wù)并行處理"的思路。

就像現(xiàn)代計算機能夠在下載文件的同時處理文檔一樣,DualPipe讓模型在進行計算的同時,后臺已經(jīng)開始準備下一步需要的數(shù)據(jù)傳輸。這種設(shè)計確保了通信開銷被很大程度地隱藏在計算過程中,極大提升了整體效率。

傳統(tǒng)的訓(xùn)練信息流水線并行就像一條產(chǎn)品裝配線,每個工位按順序處理任務(wù)。當數(shù)據(jù)包從一個階段傳遞到下一個階段時,往往會產(chǎn)生等待時間,這就是所謂的"流水線氣泡"。這些氣泡會導(dǎo)致計算資源的浪費,就像流水線上的工人不得不等待上游工序完成才能開始工作。此外,不同節(jié)點之間的數(shù)據(jù)傳輸時間也會成為性能瓶頸,就像工位之間傳遞零件的時間過長會影響整體生產(chǎn)效率。

而DualPipe引入了雙重流水線的概念,就像在同一條生產(chǎn)線上同時處理兩批產(chǎn)品。當一個計算階段在等待數(shù)據(jù)傳輸時,可以立即切換到處理另一批數(shù)據(jù),這樣就能充分利用原本的空閑時間。

(DualPipe示意圖,在圖中由共享黑色邊框包圍的兩個單元格具有相互重疊的計算和通信。)

這是讓流水線上沒有“閑人”。

除此之外,還要盡量壓縮取件到操作的過程。

因為DeepSeek對流水線的特殊設(shè)計,使得通信和計算的過程可以重疊。當一個節(jié)點在進行當前批次數(shù)據(jù)的計算時,系統(tǒng)已經(jīng)開始準備下一批次需要的專家參數(shù)傳輸。當前向計算完成時,下一步需要的數(shù)據(jù)已經(jīng)就位,幾乎不會產(chǎn)生等待時間。大部分數(shù)據(jù)傳輸時間被"隱藏"在了計算過程中,就像在無縫銜接的裝配線上,零件的運送時間對整體生產(chǎn)效率幾乎沒有影響。

DualPipe正是通過精確控制這種重疊過程,實現(xiàn)了在大規(guī)模分布式訓(xùn)練中接近零通信開銷的理想狀態(tài)。

根據(jù)DeepSeek 的技術(shù)報告,DualPipe算法減少了50%的計算氣泡,有效隱藏了通信開銷?绻(jié)點通信優(yōu)化則提升了帶寬利用率,減少了20%的通信開銷。

這就基本相對傳統(tǒng)方式提高了一倍的算力使用效能。

無輔助損失的負載均衡策略

無輔助損失的負載均衡策略是DeepSeek-V3一個讓訓(xùn)練過程中工人各展所能的調(diào)整。

負載均衡策略在V2時代已經(jīng)被引入,但在這一代更進一步。

在專家混合系統(tǒng)(MoE)中,負載均衡一直是個關(guān)鍵挑戰(zhàn)。因為MoE有很多專家模型,怎么能讓該上的專家不閑著,沒人無事可做對訓(xùn)練和模型效率都很關(guān)鍵。

傳統(tǒng)方法通常需要引入額外的輔助損失項來平衡專家的使用,就像在工廠中人為設(shè)置配額來確保各條生產(chǎn)線的負載均衡。這種方法不僅增加了訓(xùn)練的復(fù)雜性,還可能影響模型的本地優(yōu)化目標。

DeepSeek的創(chuàng)新在于實現(xiàn)了無輔助損失的自然均衡。系統(tǒng)會根據(jù)專家的歷史利用率動態(tài)調(diào)整其"接收容量"。當某個專家持續(xù)過載時,系統(tǒng)會自動降低其接收新任務(wù)的概率;反之,對于利用率低的專家,系統(tǒng)會提高其接收任務(wù)的機會。既考慮專業(yè)匹配度,也考慮當前的工作負荷。這種自適應(yīng)機制確保了長期來看的負載平衡。這更像是市場經(jīng)濟,而非計劃經(jīng)濟。

(最上面兩條線,上面是有負載均衡,下面的是無負載均衡的情況。從圖中可以看出,采用無負載均衡策略的專家層負載更均勻,也更積極)

這個改進讓訓(xùn)練過程更穩(wěn)定,大家都有機會訓(xùn)練,也提高了訓(xùn)練效率。

底層通信優(yōu)化

對于模型訓(xùn)練來講,底層通訊也是個大問題,很多時候硬件間通訊不暢就會使得訓(xùn)練產(chǎn)線出現(xiàn)局部停工,無活兒可干的事兒。

DeepSeek在這方面也做了相當?shù)膬?yōu)化,專門開發(fā)了高效的跨節(jié)點全對全通信內(nèi)核。這就像是在高速公路系統(tǒng)中建立了更智能的紅綠燈調(diào)度系統(tǒng),能夠充分利用InfiniBand和NVLink這些高速通道的帶寬。這些優(yōu)化確保了數(shù)據(jù)在不同計算節(jié)點之間的傳輸始終保持在最高效率。

以上這些還不是DeepSeek在訓(xùn)練上采用的所有提效手段,只是相對大膽創(chuàng)新的部分。目前其他訓(xùn)練在架構(gòu)中常用的移除LayerNorm中的bias項、在FFN后引入scale因子、采用RoPE相對位置編碼等方式,DeepSeek-V3也都有所采用。而在訓(xùn)練策略上,DeepSeek還采用了ALiBi位置編碼預(yù)訓(xùn)練、Flash Attention 2實現(xiàn)、序列長度動態(tài)擴展等已有先進技術(shù)。

DeepSeek-V3這回真的可以說是在訓(xùn)練工程上無所不用其極?偨Y(jié)下來,最重要的包括以下這么幾個方面。

不管是MLA、FP8和Daulpipe算法,都是非常大膽的使用當下降低訓(xùn)練成本的前沿技術(shù)。這些基礎(chǔ)技術(shù)方向都已經(jīng)是主流認知的可能性,但DeepSeek做到了經(jīng)過精心調(diào)教優(yōu)化設(shè)計,使其可用,且發(fā)揮最大的能力。

既然GPU少,那就卷工程,DeepSeek這回確實是用東亞魔法打破西方壟斷。

超強性能的秘密:努力偏科

DeepSeek-V3的能力確實相當驚艷,相較于其他頂尖開源模型如LLama 3.1 405B,Qwen2.5 72B,在數(shù)據(jù)上都更勝一籌。甚至在和Claude 3.5 Sonnet和GPT-4o這兩個最頂尖模型的比較上都有多項數(shù)據(jù)更強。

尤其在數(shù)學(xué)推理、代碼生成和長文本處理等方面達到了業(yè)界領(lǐng)先水平。在GSM8K數(shù)學(xué)推理測試中取得92.1%的高分,在HumanEval代碼評估中以88.3%的成績超越GPT-4,同時還具備32K的長文本處理能力。

但從Benchmark本身和DeepSeek的技術(shù)報告中,我們也可以看出DeepSeek-V3在一些層面上是有偏科的。它的創(chuàng)意生成相對薄弱,開放性任務(wù)表現(xiàn)一般,結(jié)構(gòu)化思維的能力遠高于發(fā)散思維。甚至在專業(yè)領(lǐng)域比通用領(lǐng)域表現(xiàn)的更好。

那DeepSeek-V3為什么這么強呢?

首先是基礎(chǔ)。DeepSeek-V3 的總參數(shù)量有671B,每個token激活37B參數(shù)。整體參數(shù)總量比Llama 3.1 405B還高,也遠超Qwen 2.5的72B。在Scaling Law尚未碰壁的情況下,參數(shù)大小上的優(yōu)勢依然是實實在在的。

而且在上面的訓(xùn)練過程中,我們看到DeepSeek-V3雖然全力壓縮數(shù)據(jù),但在工程中盡可能的降低了對模型質(zhì)量的影響。

這就是DeepSeek的底子。但能讓它更上一層樓的還有其他幾個關(guān)鍵因素。

數(shù)據(jù)精篩

首先是數(shù)據(jù),高效的數(shù)據(jù)選擇就意味著快速的性能提升。

DeepSeek-V3在數(shù)據(jù)處理方面展現(xiàn)可以說是精益求精,卷到極致。其數(shù)據(jù)處理策略涵蓋了從原始數(shù)據(jù)采集到最終訓(xùn)練集構(gòu)建的完整流程。

根據(jù)DeepSeek 的技術(shù)報告,在訓(xùn)練V3的過程中,DeepSeek用了14.8萬億tokens的預(yù)訓(xùn)練。而作為對比Llama 3.1用了15萬億tokens,而Qwen 2.5的訓(xùn)練則使用了18萬億token。

首先在數(shù)據(jù)源的選擇上,DeepSeek-V3采用了更多元化的數(shù)據(jù)獲取策略;A(chǔ)訓(xùn)練數(shù)據(jù)來源于經(jīng)過嚴格篩選的CommonCrawl語料庫,這確保了數(shù)據(jù)的廣泛性和代表性。除此之外,研發(fā)團隊還特別重視專業(yè)領(lǐng)域數(shù)據(jù)的引入,包括大規(guī)模的代碼數(shù)據(jù)集、數(shù)學(xué)推理數(shù)據(jù)、科學(xué)文獻等。

在數(shù)據(jù)清洗環(huán)節(jié),DeepSeek采用了專有的數(shù)據(jù)過濾算法,實施了多層次的質(zhì)量控制。這個過程首先對原始數(shù)據(jù)進行重復(fù)內(nèi)容的識別和刪除,確保數(shù)據(jù)的唯一性。隨后,通過智能算法篩除低質(zhì)量內(nèi)容,包括格式錯誤的數(shù)據(jù)、不完整的文本片段以及不符合規(guī)范的內(nèi)容。這種嚴格的數(shù)據(jù)清洗流程不僅提高了訓(xùn)練數(shù)據(jù)的質(zhì)量,也為模型的最終表現(xiàn)奠定了良好基礎(chǔ)。

數(shù)據(jù)處理的技術(shù)實現(xiàn)上,DeepSeek-V3采用了一系列先進的處理方法。首先是統(tǒng)一的tokenizer設(shè)計,確保了數(shù)據(jù)處理的一致性。其次是動態(tài)序列長度調(diào)整機制,這使得模型能夠更好地處理不同長度的輸入。通過數(shù)據(jù)混合采樣策略和課程學(xué)習(xí)方法,他們也優(yōu)化了訓(xùn)練過程中的數(shù)據(jù)使用效率。

MTP技術(shù)

然后是架構(gòu)革新。

DeepSeek引入的多token預(yù)測(MTP)技術(shù)堪稱一個Game Changer。這項技術(shù)實際上是Meta在今年4月30號提出的,DeepSeek對新技術(shù)的應(yīng)用甚至快過Meta自己。

簡單講這也是一種并行優(yōu)化。

傳統(tǒng)語言模型一次只預(yù)測一個token的范式。它就像是讓模型從"一字一句"地朗讀,進化為"整句整段"地理解和生成。在訓(xùn)練過程中,模型不再局限于預(yù)測序列中的下一個token,而是學(xué)會同時預(yù)測多個連續(xù)位置的token。這種并行預(yù)測機制不僅提高了訓(xùn)練效率,還讓模型能夠更好地捕捉token之間的依賴關(guān)系。在保持輸出質(zhì)量的同時,模型整體性能提升2-3%。

在推理階段,MTP的優(yōu)勢更加明顯。傳統(tǒng)模型生成文本時就像是在"一筆一劃"地寫字,而MTP則像是"提前打草稿",可以同時生成多個token。通過創(chuàng)新的推測解碼機制,模型能夠基于當前上下文同時預(yù)測多個可能的token序列。即使某些預(yù)測不準確需要回退,整體效率仍然顯著提升。這種并行生成機制使推理速度提升了1.8倍,還顯著降低了計算開銷。

DeepSeek-R1蒸餾

除了在數(shù)據(jù)選擇上更多引入了專業(yè)數(shù)據(jù)之外,還要提到后訓(xùn)練過程中,DeepSeek對R1的蒸餾使用。這一方面提升了模型的能力,也讓它有點偏科。

DeepSeek R1 系列模型是DeepSeek在復(fù)現(xiàn)GPT-o1上的最新嘗試。它在今年11月21日才發(fā)布Preview版本,就已經(jīng)用在對DeepSeek-V3的蒸餾上了。

這一模型本身使用強化學(xué)習(xí)訓(xùn)練,推理過程包含大量反思和驗證,思維鏈長度可達數(shù)萬字。在編程和數(shù)學(xué)能力方面甚至在幾項指標上超越了GPT-o1-preview。

通過從DeepSeek-R1系列模型中蒸餾推理能力,即從R1模型中提取關(guān)鍵的推理模式和解題策略作為數(shù)據(jù)微調(diào)DeepSeek主干模型,并采用循序漸進課程學(xué)習(xí)等先進方法,DeepSeek-V3模形式化思維能力得到了大幅強化。此外,在蒸餾過程中,V3還學(xué)會了對結(jié)構(gòu)化數(shù)據(jù)處理和長序列計算進行了優(yōu)化。

從數(shù)據(jù)上看,僅僅通過R1蒸餾,就可以給DeepSeek V2.5帶來數(shù)學(xué)和編程上近20%的大幅提升。

但就像GPT-o1顯示出的情況一樣,這部分強化學(xué)習(xí)加成很難能夠泛化到數(shù)學(xué)和編程之外,因此DeepSeek-V3的偏科在所難免。

因此,DeepSeek-V3很強,但仍然還有很大優(yōu)化的空間。

DeepSeek-V3,

工程的奇跡也是重要的價值

在外網(wǎng)關(guān)于DeepSeek-V3的一片贊許聲中,其實也有相當?shù)膽岩芍暋?/span>

Sam Altman就疑似嘲諷DeepSeek-V3缺乏真正創(chuàng)新的方法,而僅僅是復(fù)制有效的東西。

這一評價其實并不算特別中肯。確實,DeepSeek-V3所采用的核心技術(shù)中,多層注意力MLA技術(shù)存在已久、MTP技術(shù)來自今年4月Meta的論文,而R1的蒸餾和探索也是受到OpenAI和谷歌的啟發(fā)。

但在底層工程并行技術(shù)上,DeepSeek實際上做了很多創(chuàng)新。比如無輔助損失負載均衡來自DeepSeek八月的論文,Daulpipe也是DeepSeek的新嘗試。

至少在工程面上,DeepSeek的創(chuàng)新力并不差。

另一個有影響力的批評來自于FutureLabs未來實驗室首席專家胡延平。

他發(fā)微博表示,當前大模型發(fā)展面臨雙螺旋式的演化。一條是向上攀升的性能曲線,追求更深層的理解和推理能力;另一條是向下延伸的基礎(chǔ)曲線,著重提升效率和落地能力。DeepSeek-V3在這個維度上似乎仍未完全突破天花板。

但他卻忽視了一個基本事實:在深度學(xué)習(xí)時代,規(guī)模效應(yīng)本身就是算法創(chuàng)新的催化劑。

當下AI之所以難以滲透落地,很大的原因正是因為成本還不夠低。尤其是在模型進入強化學(xué)習(xí)時代后,o1的成本更是高的難以讓人向下進入日常。

而這正是DeepSeek-V3所做的嘗試價值所在。它展示了一種新的可能性:在工程實現(xiàn)和理論創(chuàng)新之間找到平衡點。它不是在追隨OpenAI或Anthropic的路徑,而是開創(chuàng)了一條符合現(xiàn)實約束的技術(shù)進化道路。

在AI領(lǐng)域,過分強調(diào)"形而上"的理論創(chuàng)新,同時輕視工程實現(xiàn)的突破,這種傾向某種程度上正是阻礙AI真正落地的絆腳石。

之前提到的Meta四月發(fā)布的論文技術(shù)和DeepSeek本身在八月的論文提到的技術(shù),包括11月發(fā)布的R1模型,它們的能力都被運用到了年底發(fā)布的這個最新模型之中。

DeepSeek至少做到了,以最快的速度將理論轉(zhuǎn)化為現(xiàn)實。

本文來源:騰訊科技

網(wǎng)友評論

聚超值•精選

手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部
国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av