剛剛擊破摩爾定律的英偉達(dá),卻要撞上 scaling laws 的墻? 相當(dāng)一部分評(píng)論家和分析師是這么認(rèn)為的。即便你不同意,也不能怪他們,畢竟在英特爾的身上,大家剛剛目睹了摩爾定律似乎「失效」了。 在最近兩次財(cái)報(bào)電話會(huì)議(25Q3、Q4)中,每次都有不止一位分析師向英偉達(dá) C-level 拋出同一類問題:神經(jīng)網(wǎng)絡(luò)的 scaling law 是否不再起到作用了? 他們真正想問的是:英偉達(dá)還能否續(xù)寫連續(xù)兩個(gè)財(cái)年的瘋狂增長(zhǎng)? 這就是在業(yè)界甚囂塵上的 scaling law 撞墻猜測(cè)。簡(jiǎn)而言之,機(jī)器學(xué)習(xí)的 scaling law 的指的是隨著模型大。▍(shù)量)、數(shù)據(jù)集、訓(xùn)練成本這三大要素的提升,大模型的性能也會(huì)有所提升(具體細(xì)節(jié)不展開)。 而許多分析師看到 DeepSeek 震驚世界的成果之后,得出一種新的猜測(cè),認(rèn)為進(jìn)一步訓(xùn)練天量參數(shù)和超大數(shù)據(jù)集的大語(yǔ)言模型的意義沒那么大了,蒸餾現(xiàn)有超大模型的性能也很不錯(cuò),完全事半功倍。 而放在英偉達(dá)的語(yǔ)境下,考慮到它是 GPT 技術(shù)催生和領(lǐng)導(dǎo)的大語(yǔ)言模型爆發(fā)的最大受益者,最近連續(xù)幾個(gè)季度的收入又過分嚴(yán)重依賴數(shù)據(jù)中心;現(xiàn)在大模型的蒸餾新玩法出現(xiàn),似乎不再需要那么多 Hopper、Blackwell,以及英偉達(dá)早已畫好路線圖的新架構(gòu)顯卡,進(jìn)而直接導(dǎo)致英偉達(dá)圖形計(jì)算方案產(chǎn)品的市場(chǎng)需求從高位滑落,最近兩個(gè)財(cái)年的瘋長(zhǎng)神話不再續(xù)寫。 CEO 黃仁勛理解這種「恐慌」,畢竟公司股票在過去一年里給太多人賺了太多錢。但他不理解人們?yōu)槭裁磿?huì)有 scaling law 不再適用的想法。 在和軟銀創(chuàng)始人孫正義的談話中,黃仁勛提到,只要投入足夠的計(jì)算資源,采用更復(fù)雜的算法,AI 的智能水平還能夠繼續(xù)提升。上一財(cái)務(wù)季度的電話會(huì)議里,黃仁勛又提出了一個(gè)關(guān)于 scaling law 的新思考框架,具體來(lái)說(shuō)有三個(gè)部分:預(yù)訓(xùn)練 scaling、后訓(xùn)練 scaling、推理 (包括模型推理 inference 和思維推理 reason)scaling。 而在英偉達(dá) Geforce 技術(shù)大會(huì)(GTC)上,他進(jìn)一步闡釋了這個(gè)新的 scaling law 框架: 通過 DeepSeek,人們用上了能夠推理 (reason),具有思維鏈的 AI。這和 ChatGPT 有本質(zhì)的區(qū)別。ChatGPT 回答很多復(fù)雜問題的時(shí)候答案都是錯(cuò)的,因?yàn)榇鸢甘且淮涡陨傻模瑃oken 是一個(gè)接一個(gè)吐出來(lái)的。 而現(xiàn)在 AI 能夠推理,每個(gè) token 都返回到上一步重新處理,一次又一次的重復(fù),最終形成一個(gè)思維鏈 (chain of thought)」 「我們不只是 token 吞吐量提升了 10 倍,同時(shí)也需要 10 倍更快的計(jì)算(注:中和更多 token 消耗的時(shí)間)。最后的結(jié)果是,我們需要 10 x 10 = 100 倍更多的算力!」 事實(shí)上在黃仁勛看來(lái),任何人如果理解計(jì)算機(jī)科學(xué)領(lǐng)域的最基本悖論——延遲和吞吐量——就不會(huì)說(shuō)出 scaling law 不再適用那些話。 在基于強(qiáng)化學(xué)習(xí),具有思維鏈 (chain of thoughts) 能力的大模型的推理過程中,每個(gè)新 token 都會(huì)在產(chǎn)生之后不斷地被送回上一步重新處理,用黃仁勛自己的比喻叫做「token 的自我懷疑」。他說(shuō),「如果你想要聰明的 AI,你就需要高效率地生成 token。如果你花了太長(zhǎng)的時(shí)間去生成這些 token,你的客戶最后就不用你了。所以你的 token 速度很重要! 為了證明自己的觀點(diǎn),黃仁勛拿出傳統(tǒng)大語(yǔ)言模型代表 Llama 3.3 70B 和 DeepSeek R1 671B(37B 激活),讓它們回答同一個(gè)復(fù)雜問題。 前者生成了 439 個(gè) token,但給出的答案根本沒法用,黃仁勛說(shuō)「400 多個(gè) token 白白浪費(fèi)了」。后者打開了標(biāo)志性的「深度思考」模式,結(jié)果生成了高達(dá) 8559 個(gè) token,得到的答案令人滿意。 但和所用算力相比,答案滿意與否已經(jīng)沒那么重要了: 具有思維鏈的 R1 推理模型的 token 吞吐量是傳統(tǒng)模型 20 倍,現(xiàn)場(chǎng)演示的用時(shí)也比傳統(tǒng)模型長(zhǎng)了兩倍,即便如此都要用到 150 倍的算力。如果換做消費(fèi)級(jí)使用場(chǎng)景下,想要在足夠快、能留住用戶的時(shí)間窗口內(nèi),輸出經(jīng)過深思熟慮的可靠結(jié)果,需要的算力只會(huì)成倍增加。 怎么訓(xùn)練的模型也不太重要了。模型想要在真正的商業(yè)和消費(fèi)應(yīng)用中高效地進(jìn)行推理/思考,同樣需要大量的算力。早在之前的財(cái)報(bào)會(huì)上黃仁勛就說(shuō)過,人們目前看得見和用得上的消費(fèi)級(jí)產(chǎn)品,比如搜索、生成、推薦功能,還只是大模型能力的九牛一毛。未來(lái)的推理/思考型模型將要消耗掉的算力,將令人難以置信。 他不得不在自己的主場(chǎng) GTC 上,完整展現(xiàn)自己對(duì)于這件事的「思維鏈」,甚至在臺(tái)上瘋狂做數(shù)學(xué)題,算 token 秒速、單機(jī)架功耗,再把它們合到一起算出每兆瓦秒 token 吞吐性能,推導(dǎo)出新架構(gòu)產(chǎn)品能讓客戶多賺多少錢。發(fā)布會(huì)兩個(gè)多小時(shí)的觀感,70% 說(shuō)服分析師,30% 面向開發(fā)者和企業(yè)伙伴。 黃仁勛的技術(shù)前瞻性的確獨(dú)一無(wú)二,特別是帶領(lǐng)公司研發(fā) CUDA 技術(shù)走上 GPGPU 道路,使得基于圖形計(jì)算架構(gòu)的通用加速計(jì)算成為可能。而我們也看到了早年的這些決策,在最近兩年里以數(shù)據(jù)中心業(yè)務(wù)的形態(tài)貢獻(xiàn)了英偉達(dá)高達(dá) 90% 的收入,幫助公司實(shí)現(xiàn)高達(dá) 56% 的凈利潤(rùn)。 但歸根結(jié)底,黃仁勛是圖形加速計(jì)算布道者,更是顯卡銷冠。他需要繼續(xù)不遺余力地抬高英偉達(dá)驅(qū)動(dòng)的 GPU 數(shù)據(jù)中心——2025 年已經(jīng)換了一個(gè)新名字,叫做 AI 工廠——在企業(yè)客戶心目中的價(jià)值認(rèn)知和必要性心智,才能續(xù)寫英偉達(dá)的股價(jià)神話。 本屆 GTC 上發(fā)布了很多核彈級(jí)的新 AI 加速計(jì)算方案,軟硬兼施,包括最新 Blackwell Ultra 架構(gòu) + NVLink72 互聯(lián)技術(shù)的服務(wù)器機(jī)架產(chǎn)品和超算集群產(chǎn)品、Dynamo 分布式推理大模型環(huán)境部署軟件、AI 超算單機(jī) DGX Spark/Station、數(shù)字-光纖調(diào)制解調(diào)模組等、Groot N1 人形機(jī)器人基礎(chǔ)模型等。 這些產(chǎn)品和技術(shù)的意義很大,對(duì)于不同規(guī)模場(chǎng)景的企業(yè)建設(shè)自己的 AI 工廠,訓(xùn)練自己垂直領(lǐng)域的獨(dú)家超大模型和機(jī)器人,能帶來(lái)很可觀的效能提升,最終帶來(lái)更高的收入。 但現(xiàn)場(chǎng)黃仁勛反復(fù)采用的一種敘事邏輯,有些耐人尋味: 英偉達(dá)在大量的企業(yè)級(jí) AI 大模型訓(xùn)練和部署展示中,一而再、再而三地強(qiáng)調(diào)大量預(yù)先模擬和測(cè)試的必要性。 具體來(lái)說(shuō),未來(lái)的千行百業(yè)在應(yīng)用 AI 技術(shù)的過程中,需要做大量的、反復(fù)的模擬和測(cè)試工作。比如一個(gè)在工廠流水線工作的機(jī)器人,在真人教會(huì)他如何擺弄工具之前或者同時(shí),他可以在大模型里跑成百上千次模擬,包括動(dòng)作模擬、物理引擎模擬,甚至 GPU 虛擬出的不同環(huán)境場(chǎng)景下的重復(fù)模擬。 而這些模擬測(cè)試的內(nèi)容,毫無(wú)意外,也是在英偉達(dá)圖形計(jì)算方案驅(qū)動(dòng)的服務(wù)器里進(jìn)行的。英偉達(dá)的 Omniverse 機(jī)器人 AI 操作系統(tǒng)和 Cosmos 真實(shí)世界基礎(chǔ)大模型,正是專為這些模擬測(cè)試背后的大模型訓(xùn)練和部署工作而生的。 也就是說(shuō),在英偉達(dá)看來(lái),不止訓(xùn)練大模型,部署和推理大模型,在現(xiàn)實(shí)世界的千行百業(yè)應(yīng)用大模型之前,還要進(jìn)行大量的訓(xùn)練-推理-再訓(xùn)練-再推理……不斷循環(huán)往復(fù)的強(qiáng)化學(xué)習(xí)過程。每多強(qiáng)化一點(diǎn),需要的算力都呈指數(shù)級(jí)提升。 黃仁勛打的大概就是這個(gè)算盤:從 Hopper 架構(gòu)升級(jí)到 Blackwell,token 吞吐效率已經(jīng)幾何提升,轉(zhuǎn)換到客戶的每 token 收入翻了 40 倍。而如果再升級(jí)到 2027 年的 Rubin 架構(gòu),甚至 2028 年的 Feynman 架構(gòu),想都不敢想。 The more you buy, the more you save? 毋庸置疑的是,英偉達(dá)需要持續(xù)炒熱 GPU 架構(gòu)革新的意義,加快新架構(gòu)發(fā)布的節(jié)奏,甚至在幾乎一己之力打破了英特爾的摩爾定律之后,又創(chuàng)造了自己每年一升級(jí)的 tick-tock 規(guī)則。 只有客戶的心智被規(guī)訓(xùn)成「永遠(yuǎn)認(rèn)為自己需要更好的顯卡」,就像每年總?cè)滩蛔Q新 iPhone 那樣,英偉達(dá)才能有希望保持收入繼續(xù)增長(zhǎng),即便最近兩年的增速已經(jīng)如此瘋狂。 就像大會(huì)開場(chǎng)前的暖場(chǎng)對(duì)談里所說(shuō)的:在任何經(jīng)濟(jì)里,賣水的永遠(yuǎn)會(huì)成功。 最后,有一個(gè)疑惑縈繞在腦海里: 順著英偉達(dá)的邏輯,總有一天,而且應(yīng)該不會(huì)太久,這個(gè)世界上被用于訓(xùn)練和優(yōu)化所有大模型的數(shù)據(jù),全都來(lái)自于別的大模型甚至這個(gè)大模型自己。 機(jī)器都 scale up 了,人是不是就該 out 了? 本文來(lái)源:愛范兒 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。