英偉達(dá)芯片“倒?fàn)敗眰儯_始不發(fā)朋友圈了。
2023年大模型火熱的時(shí)候,“倒?fàn)敗眰兣笥讶Φ漠嬶L(fēng)是“欲購(gòu)從速、30%定金,有實(shí)力的老板來!”到了2024年就變成了“現(xiàn)貨現(xiàn)款、物美價(jià)優(yōu)。”甚至有一批人已經(jīng)黯然退場(chǎng)。
以H100整機(jī)價(jià)格為例,官方售價(jià)為30萬美元左右,水貨一度高達(dá)300多萬人民幣,超過50%的利潤(rùn)空間,讓不少人趨之若鶩,但是現(xiàn)在價(jià)格已經(jīng)回落到230萬人民幣左右,再倒賣也就沒什么利潤(rùn)空間。
其中既有英偉達(dá)芯片更新?lián)Q代的原因,基于Blackwell架構(gòu)的GB200等新品單位算力成本更低;也有算力行業(yè)從過熱到回歸理性的必然,有了GPU并不意味能轉(zhuǎn)換成大模型算力,大家對(duì)這一現(xiàn)實(shí)的理解,是用真金白銀砸出來的。
大模型之大,動(dòng)輒需要64/128/256臺(tái)服務(wù)器(一臺(tái)服務(wù)器8張GPU卡)組成的算力集群來訓(xùn)練。對(duì)于志在基礎(chǔ)大模型的廠商來說,萬卡集群成了入門門檻,不僅海外OpenAI、馬斯克的xAI等都在規(guī)劃十萬卡集群,國(guó)內(nèi)也同樣走在競(jìng)逐十萬卡集群的路上。
來自需求端的壓力,也正在重新校正AI算力產(chǎn)業(yè),首當(dāng)其沖的便是智算中心。作為計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)的集合體,智算中心直接反映大模型算力的行業(yè)現(xiàn)狀,而來自一線的聲音趨于一致:智算中心太“多”,大模型不夠用了。
缺算力是真的,空置也是真的
智算中心并不是絕對(duì)意義上的“多”,無論從各種視角看,真正適配大模型訓(xùn)練的算力在未來一段時(shí)間仍有很大的缺口,大規(guī)模智算中心的建設(shè)不會(huì)停止。
以O(shè)penAI為代表,ChatGPT發(fā)布兩年來,大模型產(chǎn)業(yè)發(fā)展的腳步似乎變慢了,不排除這是大模型新一輪爆發(fā)前的蟄伏,在“Scaling Law”(規(guī)模法則)信仰之下,xAI、Meta、OpenAI等巨頭都在積極布局十萬卡乃至更大規(guī)模的智算集群。
例如7月份,馬斯克宣布位于美國(guó)田納西州孟菲斯市的超級(jí)集群開始投入訓(xùn)練,該集群配備了10萬個(gè)英偉達(dá) H100 GPU,被稱為 “世界上最強(qiáng)大的 AI 訓(xùn)練集群”。兩個(gè)月后,馬斯克宣布該集群名為 “Colossus(巨人)”,將在未來幾個(gè)月內(nèi)再增加 10 萬顆 GPU,其中 5 萬顆將是更為先進(jìn)的英偉達(dá) H200,Grok 3訓(xùn)練預(yù)計(jì)在三到四個(gè)月內(nèi)于該集群完成,目標(biāo)是12月發(fā)布。
再看OpenAI,甚至因?yàn)樗懔桓逗汀拌F桿盟友”微軟產(chǎn)生了分歧。此前微軟與 OpenAI 合作共建一個(gè)代號(hào)為 “星際之門” 的巨型數(shù)據(jù)中心項(xiàng)目,項(xiàng)目預(yù)計(jì)成本超過 1150 億美元,旨在建設(shè)一個(gè)配備數(shù)百萬塊 GPU 的超級(jí)計(jì)算機(jī)。據(jù)報(bào)道,微軟計(jì)劃到2025年底向 OpenAI 提供約 30 萬個(gè)英偉達(dá)最新的 GB200。
但是奧爾特曼似乎對(duì)微軟的速度還不滿意,在完成66億美元的最新一筆融資后,OpenAI又與甲骨文達(dá)成合作,將在德克薩斯州的一個(gè)新數(shù)據(jù)中心租用服務(wù)器,該數(shù)據(jù)中心未來可容納數(shù)十萬個(gè)英偉達(dá)GPU。
圖片系A(chǔ)I生成
超大規(guī)模數(shù)據(jù)中心解決方案運(yùn)營(yíng)商秦淮數(shù)據(jù)對(duì)鈦媒體APP表示,公司堅(jiān)定看多智算,預(yù)計(jì)2027年開始智算需求進(jìn)一步爆發(fā),到2030年100%的推理需求都需要由超大規(guī)模數(shù)據(jù)中心來完成。
賽迪顧問人工智能與大數(shù)據(jù)研究中心高級(jí)分析師白潤(rùn)軒此前表示, 截至2024年上半年,國(guó)內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心超過250個(gè),2024年上半年智算中心招投標(biāo)相關(guān)事件791起,同比增長(zhǎng)高達(dá)407.1%。
“這表明智算中心的建設(shè)在全國(guó)范圍內(nèi)得到了廣泛的關(guān)注和支持。從2023年開始,各地政府加大了對(duì)智算中心的投資力度,推動(dòng)了基礎(chǔ)設(shè)施的發(fā)展!卑诐(rùn)軒說。
百度智能云AI計(jì)算部負(fù)責(zé)人王雁鵬則表示,從需求側(cè)來看,十萬卡是今年大模型競(jìng)爭(zhēng)的規(guī)模門檻,從技術(shù)角度來看,大模型算力基本估算為模型的大小乘以所需要的數(shù)據(jù)量,“GPT4是萬億參數(shù),大概用了2-3萬張H卡集群訓(xùn)出來GPT4,按照Scaling Law推算,GPT5的集群卡數(shù)大概在十萬量級(jí),可能是5-10萬之間,參數(shù)級(jí)別會(huì)提升大概3-5倍!
然而,與萬卡算力集群火熱相對(duì)應(yīng)的,是大模型市場(chǎng)的“冷清”。
據(jù)經(jīng)濟(jì)觀察報(bào)統(tǒng)計(jì),截至2024年10月9日,網(wǎng)信辦共通過188項(xiàng)生成式人工智能備案,也就是有188個(gè)大模型可以上線提供生成式人工智能服務(wù)。但超過三成的大模型在通過備案后未進(jìn)一步公開其進(jìn)展情況;僅有約一成的大模型仍在加速訓(xùn)練模型;接近一半的大模型則轉(zhuǎn)向了AI應(yīng)用的開發(fā)。
這些跡象可以理解為:大模型預(yù)訓(xùn)練需求越來越集中了。
與此同時(shí),國(guó)內(nèi)市場(chǎng)相較于海外市場(chǎng)更復(fù)雜。相似之處是算力需求持續(xù)增長(zhǎng),不同之處是算力封鎖、生態(tài)不全,加之前期部分炒貨囤卡的行為,這就導(dǎo)致了一種詭異的狀態(tài)——算力既緊缺又空置。因?yàn),“把GPU卡塞進(jìn)機(jī)房”和“構(gòu)建用于大模型訓(xùn)練所需的算力集群”,是兩個(gè)完全不同的概念。
但是,對(duì)于智算中心的空置率或者浪費(fèi)程度,并沒有一個(gè)統(tǒng)一的答案。從鈦媒體APP獲得的一份資料可以有個(gè)大概感知:上半年國(guó)內(nèi)已上線智算中心17億卡時(shí),使用5.6億卡時(shí),利用率32%;另有數(shù)據(jù)顯示,目前算力基礎(chǔ)設(shè)施行業(yè)的平均上架率不足 60%。
算力空置引起各方關(guān)注
“各地前期已經(jīng)建設(shè)了一批智算中心,不管是國(guó)產(chǎn)卡還是英偉達(dá)的卡,這些集群都不同程度上存在閑置問題,政府已經(jīng)注意到了這些問題,智算中心的運(yùn)營(yíng)主體也也不少出現(xiàn)虧損,在算力挑戰(zhàn)短時(shí)間內(nèi)很難解決的情況下,投資節(jié)奏上還是要有所把控!币晃唤咏男袠I(yè)側(cè)人士對(duì)鈦媒體App提到。
國(guó)家層面先后推出了十余項(xiàng)政策推進(jìn)智算中心建設(shè),例如“東數(shù)西算”“數(shù)字中國(guó)建設(shè)整體布局規(guī)劃”等,但上述人士告訴鈦媒體App,最近發(fā)改委已經(jīng)基本明確,如果還要進(jìn)一步新建智算中心,而且是采購(gòu)國(guó)外卡,能耗指標(biāo)均不予批復(fù)。如果采購(gòu)國(guó)產(chǎn)卡,考慮支持國(guó)產(chǎn)創(chuàng)新,并且在東數(shù)西算的八大節(jié)點(diǎn)上,還可以安排能耗指標(biāo)。
據(jù)了解,目前智算中心主要投資模式,一是政府投資建設(shè),建設(shè)資金來自地方政府財(cái)政資金、專項(xiàng)債券發(fā)行等,建成后所有權(quán)歸政府所有;二是企業(yè)獨(dú)立投資建設(shè),由企業(yè)聯(lián)盟、少數(shù)企業(yè)聯(lián)合、單獨(dú)企業(yè)等形式進(jìn)行投資;三是高;蚩蒲袡C(jī)構(gòu)獨(dú)立投資建設(shè),向師生、研究人員提供免費(fèi)算力支撐,服務(wù)高校教育場(chǎng)景,這種情況下建設(shè)成本較低。
這其中,有不少智算中心向銀行貸款采購(gòu)GPU卡,承諾兜底方都是幾家搞基礎(chǔ)大模型的公司,比如阿里巴巴、騰訊、百度等。銀行也很疑惑,大模型公司本身就有云基礎(chǔ)設(shè)施和大量GPU卡,絕大多數(shù)中間商的議價(jià)權(quán)和渠道能力還不如這些大廠,怎么讓大廠們加錢采購(gòu)?
鈦媒體APP獲悉,有地方政府開始斡旋,希望讓云廠商租用閑置的智算中心算力!拔覀兌疾恢绹(guó)內(nèi)還有這么多卡,某種意義上,算力稀缺的背后存在一些資源錯(cuò)配!鄙鲜鋈耸勘硎。
該人士還提到,政府意識(shí)到可能會(huì)有算力浪費(fèi)的情況出現(xiàn),但是,部分地方手握能耗指標(biāo),和供應(yīng)商拉扯的時(shí)間較多,智算中心建得慢,而部分地方建設(shè)得快反而虧損,由此帶來的負(fù)面甚至引起了高層注意。
據(jù)悉,工信部日前面向六個(gè)城市定向下發(fā)了關(guān)于智算云服務(wù)試點(diǎn)的批文,希望用公共云的方式,解決前期各地方的智算中心建設(shè)問題,特別是國(guó)有資金建設(shè)的一些小散算力中心浪費(fèi)問題。
近幾個(gè)月來,政府側(cè)已經(jīng)出臺(tái)多項(xiàng)政策,正強(qiáng)調(diào)有序引導(dǎo),出清落后產(chǎn)能。
例如《數(shù)據(jù)中心綠色低碳發(fā)展專項(xiàng)行動(dòng)計(jì)劃》發(fā)布,對(duì)數(shù)據(jù)中心行業(yè)的區(qū)域布局、能效水效、綠電使用進(jìn)行了嚴(yán)格、全面的規(guī)定,并提出“全面清理地方高耗能電價(jià)優(yōu)惠政策”,輿論普遍認(rèn)為該政策將加速落后產(chǎn)能淘汰,從而改善行業(yè)供給結(jié)構(gòu),促進(jìn)行業(yè)良性發(fā)展。
8 月 1 日,《公平競(jìng)爭(zhēng)審查條例》正式實(shí)施,要求各地方政府“沒有法律法規(guī)依據(jù)或國(guó)務(wù)院批準(zhǔn),不得給予特定經(jīng)營(yíng)者稅收優(yōu)惠”,這意味著盛行已久的地方“以稅引商”模式被按下了暫停鍵,企業(yè)將更關(guān)注經(jīng)營(yíng)本身,有利于行業(yè)從“卷價(jià)格”走向“卷創(chuàng)新”。
云計(jì)算行業(yè)也看到了智算中心建設(shè)的問題。阿里云智能科技研究中心主任安琳提到,目前有三種“萬卡集群:
假萬卡集群——公司確實(shí)有一萬張AI加速卡(GPU卡),但分布在全國(guó)幾個(gè)不同的數(shù)據(jù)中心,每個(gè)數(shù)據(jù)中心有幾百?gòu)埢驇浊Э,加起來超過萬卡。這種集群是“假萬卡集群”。
偽萬卡集群——擁有一萬張AI加速卡且部署在同一個(gè)數(shù)據(jù)中心,但訓(xùn)練特定模型的時(shí)候,只有一部分卡實(shí)際參與訓(xùn)練。例如:1000卡訓(xùn)練A模型,2000張卡訓(xùn)練B模型,3000張卡訓(xùn)練C模型,4000張卡訓(xùn)練D模型。這種萬卡集群是“偽萬卡集群”。
真萬卡集群——單一集群擁有一萬張AI加速卡(如GPU卡),部署在同一個(gè)數(shù)據(jù)中心,并且能通過大規(guī)模資源調(diào)度技術(shù),讓萬卡作為“一臺(tái)”計(jì)算機(jī),單一模型能在這一萬張卡上同時(shí)進(jìn)行訓(xùn)練。正如100個(gè)昆明湖連起來,也訓(xùn)不出一支航母艦隊(duì),大模型也是如此,只有真正的萬卡智算集群,才能訓(xùn)練出國(guó)際先進(jìn)的大模型。
有數(shù)據(jù)中心行業(yè)人士也表示,數(shù)據(jù)中心行業(yè)對(duì)內(nèi)卷嚴(yán)重的感知非常明顯,比如很多數(shù)據(jù)中心企業(yè)無條件為客戶預(yù)留資源;簽訂短期租約,客戶擁有隨時(shí)調(diào)價(jià)調(diào)量的權(quán)益;過度擴(kuò)大責(zé)任范圍;招投標(biāo)突破合理價(jià)格底線等等,這都是一些內(nèi)卷帶來的亂象。
為什么大模型算力會(huì)閑置?
在回答這一問題之前,有必要捋清下大模型所需的算力類型。
目前大模型所需的算力主要有三種,其一是超大規(guī)模的大模型訓(xùn)練,需要的算力集群越來越大,智算中心供不應(yīng)求;其二是常規(guī)的大模型訓(xùn)練/微調(diào),一般的裸金屬或者算力集群都能滿足;其三是推理需求,用云主機(jī)等都能滿足,未來需求有望穩(wěn)定增長(zhǎng)。
可以看出,除了第一種基礎(chǔ)大模型的訓(xùn)練需求之外,其余的大模型算力需求并不十分緊缺,不用最新的英偉達(dá)GPU卡,國(guó)產(chǎn)AI芯片也能頂上,企業(yè)可以在價(jià)格、成本、易用性等因素之間尋找平衡點(diǎn)。
ZStack CTO王為提到了一個(gè)很有意思的現(xiàn)象,也是國(guó)內(nèi)企業(yè)不得已為之的權(quán)宜之計(jì)——他表示,企業(yè)對(duì)于AI的投入還是相對(duì)比較謹(jǐn)慎的,在很多場(chǎng)景下用消費(fèi)級(jí)顯卡,很大程度上解決了大模型非預(yù)訓(xùn)練的需求。
對(duì)于云廠商而言,按照正常的生意邏輯,一邊買卡一邊以云服務(wù)的形式賣出去,不會(huì)大肆囤卡,其他的囤卡行為顯然沒有充分認(rèn)識(shí)到,賣卡這門生意有多難。
租卡也是一種節(jié)省成本的方法,GPU正在更新?lián)Q代,但不是簡(jiǎn)單的付租金就行,云廠商還要帶著工程團(tuán)隊(duì)去做大量改造,估算地價(jià)、電價(jià)等,額外配置交換機(jī)、網(wǎng)卡、光纜等,任何資本支出都要盤算是否值得投入。
安琳進(jìn)一步補(bǔ)充道,智算中心的三大主要門檻包括集群網(wǎng)絡(luò)、任務(wù)調(diào)度、智能運(yùn)維。王雁鵬也表示,國(guó)內(nèi)構(gòu)建10萬卡集群面臨著三大難題,跨地域部署、多芯混訓(xùn)以及集群穩(wěn)定性,這些難題包括技術(shù)和工程上的多重挑戰(zhàn)。
首先是網(wǎng)絡(luò),大模型催生了一種全新的網(wǎng)絡(luò)需求,此前從未有過,也就沒有相應(yīng)的成熟方案,市面上所有方案都是邊研發(fā)邊使用,可以說,網(wǎng)絡(luò)技術(shù)直接決定集群規(guī)模能建多大。
“幾百G的帶寬,在每一個(gè)毫秒范圍內(nèi)正向模型訓(xùn)練帶寬全占滿,下一個(gè)毫秒又反向全占滿回來,在人類歷史上的通信,沒碰到過這種需求。
這涉及到諸多軟件硬件,交換機(jī)、網(wǎng)卡芯片硬件和軟件設(shè)計(jì),路徑選擇的算法、通信協(xié)議的加速。要干這件事,網(wǎng)卡、交換機(jī)甚至中間用的光纜都得專門定制!卑擦照f道,阿里云AI高性能網(wǎng)絡(luò)架構(gòu)HPN 7.0成果論文被SIGCOMM2024收錄,成為SIGCOMM歷史上首篇關(guān)于AI智算集群網(wǎng)絡(luò)架構(gòu)的論文。
其次是調(diào)度,算力集群規(guī)模小,網(wǎng)絡(luò)當(dāng)然簡(jiǎn)單,但是效率和規(guī)模就沒有競(jìng)爭(zhēng)力,如何讓計(jì)算任務(wù)靈活的在硬件資源調(diào)度,資產(chǎn)利用率就能越高,算力價(jià)格就可以做到更低。
傳統(tǒng)思路是按照硬件資源做調(diào)度,先監(jiān)測(cè)算力卡是否空閑,如果閑著了就給他扔一個(gè)任務(wù)過去,這是最簡(jiǎn)單且效率極低的調(diào)度,云計(jì)算行業(yè)早已經(jīng)進(jìn)化到按任務(wù)來調(diào)度,可以監(jiān)測(cè)到每一張卡上每一個(gè)任務(wù)的進(jìn)程,然后根據(jù)任務(wù)進(jìn)程分配新的任務(wù)。
安琳強(qiáng)調(diào),“不是簡(jiǎn)單地給算力卡安排任務(wù),而是把更細(xì)顆粒度的一個(gè)個(gè)不同的計(jì)算任務(wù)在這些卡間做調(diào)度,需要很多的工程技術(shù)能力積累,這也是為什么現(xiàn)在全世界做得好的AI公司,基本上都屬于云計(jì)算公司!
最后是運(yùn)維,在以前的計(jì)算中,算力卡壞了可以很快將其隔離,然后繼續(xù)用其他卡運(yùn)行,現(xiàn)在大模型有很多瞬時(shí)故障,在毫秒級(jí)時(shí)間有抖動(dòng),一次通信過程中的抖動(dòng)和丟包,就會(huì)導(dǎo)致GPU利用率下降50%。據(jù)安琳介紹,阿里云已經(jīng)升級(jí)到毫秒級(jí)檢測(cè),及時(shí)從集群里隔離故障算力。
此外,國(guó)內(nèi)企業(yè)構(gòu)建算力集群還面臨著一個(gè)現(xiàn)實(shí)的困難:芯片。
國(guó)內(nèi)企業(yè)面臨算力供應(yīng)不穩(wěn)定的挑戰(zhàn),較難構(gòu)建單一大規(guī)模訓(xùn)練集群。
現(xiàn)實(shí)情況是,企業(yè)內(nèi)部會(huì)出現(xiàn)同一廠商不同代際芯片,或者不同廠商芯片共存的情況。這些芯片如何進(jìn)行混部訓(xùn)練,同時(shí)保證混部訓(xùn)練的效率也是難題。
此外,隨著芯片集成度的不斷提高,芯片的故障率也會(huì)相應(yīng)上升,英偉達(dá)H系列芯片的故障率比A系列高3-4倍。并且算力集群規(guī)模越大,其故障率就越高。按照H系列芯片的故障率水平,十萬卡集群每20分鐘就會(huì)出現(xiàn)故障。較高的故障率對(duì)穩(wěn)定性訓(xùn)練保障提出了更高的要求。
王雁鵬介紹,包括百度在內(nèi)的國(guó)內(nèi)廠商正在破解這些難題。在跨地域方面,針對(duì)由于傳輸距離變長(zhǎng)所產(chǎn)生的高延遲,百舸4.0已經(jīng)構(gòu)建了十萬卡級(jí)別的超大規(guī)模HPN高性能網(wǎng)絡(luò),通過提供更高效的拓?fù)浣Y(jié)構(gòu)、更優(yōu)的多路徑負(fù)載均衡策略及通信策略,能夠?qū)崿F(xiàn)幾十公里的跨地域通信。同時(shí),在通信效率上,通過優(yōu)化的擁塞控制算法、集合通信算法策略,將帶寬有效率提升至95%,實(shí)現(xiàn)了完全無阻塞。最后,通過10ms級(jí)別超高精度網(wǎng)絡(luò)監(jiān)控,保障了網(wǎng)絡(luò)穩(wěn)定性。
智算中心,從內(nèi)卷走向有序
對(duì)于智算中心的建設(shè)是否過于超前,不同人有不同看法。一方認(rèn)為,國(guó)內(nèi)智算中心還無法擺脫海外生態(tài)體系,需要三到五年的過渡期,在此過程中,大規(guī)模加速建設(shè)智算中心必然會(huì)帶來大量浪費(fèi)。
另一方認(rèn)為,海外封鎖只會(huì)愈發(fā)嚴(yán)峻,國(guó)產(chǎn)算力生態(tài)必須加速成熟,相比于國(guó)家戰(zhàn)略的競(jìng)爭(zhēng),超前建設(shè)帶來的一些小問題是可以接受的。有消息顯示,受到美方要求,臺(tái)積電被迫采取臨時(shí)策略,將暫停向大陸AI算力芯片客戶供應(yīng)7nm工藝及以下更先進(jìn)制程的代工服務(wù)。
目前來看,囤積英偉達(dá)卡的確帶來一部分算力浪費(fèi),如上所述,很多購(gòu)卡方不具備智算中心所需的網(wǎng)絡(luò)、調(diào)度和運(yùn)維能力。一位智算中心技術(shù)專家直言,“之前太多的投機(jī)倒把,很多都不是干這個(gè)行業(yè)的,覺得囤貨就能掙錢,把它塞到一個(gè)機(jī)房里面去,穩(wěn)定性,各種容錯(cuò),亂七八糟的問題都解決不了,造成了很多浪費(fèi)。
國(guó)產(chǎn)算力也同樣存在問題,該專家談及國(guó)產(chǎn)AI算力的浪費(fèi)時(shí)感慨,“華為的運(yùn)營(yíng)能力太強(qiáng),在大家還沒有準(zhǔn)備好用國(guó)產(chǎn)卡和用華為的時(shí)候,花了大力氣搞算力場(chǎng)、智算中心,運(yùn)營(yíng)商建了大幾萬卡的集群,它的芯片距離客戶開箱即用,到真正能用好還有一些距離,接下來會(huì)有更多的國(guó)產(chǎn)芯片進(jìn)來,這個(gè)問題會(huì)進(jìn)一步放大!
“但是對(duì)于整體國(guó)產(chǎn)卡這件事情我比較樂觀,基于大模型時(shí)代算力格局變化。原來的模型非常分散,CUDA生態(tài)非常厲害是因?yàn)橐嫒菽敲炊嗄P停F(xiàn)在大模型比較收斂的情況下,大家的主流框架是一樣的;同時(shí)英偉達(dá)又這么貴,再考慮到算力可獲得性問題,大家就會(huì)更愿意嘗試用國(guó)產(chǎn)卡!彼a(bǔ)充表示。
近日,《科技日?qǐng)?bào)》也頭版刊登了全國(guó)政協(xié)委員張?jiān)迫鹈恼隆吨撬阒行慕ㄔO(shè)不可盲目跟風(fēng)》,文章強(qiáng)調(diào),智算中心的建設(shè)需要巨額資金投入,而投資回報(bào)卻不確定。
文章表示,由于智算技術(shù)更新迭代很快,智算中心的生命周期一般只有5至10年,如果沒有強(qiáng)大的技術(shù)儲(chǔ)備和升級(jí)能力,就可能陷入不斷投入?yún)s無法跟上技術(shù)發(fā)展步伐的困境。另外,智算中心的運(yùn)營(yíng)管理離不開專業(yè)的技術(shù)人才和高效的管理團(tuán)隊(duì),否則就可能無法發(fā)揮其應(yīng)有作用,甚至出現(xiàn)設(shè)備閑置、資源浪費(fèi)等問題。由此看來,智算中心該不該建、能不能建、什么時(shí)候建、建在哪里,需要科學(xué)、穩(wěn)慎決策,絕不能頭腦發(fā)熱、一哄而上“趕時(shí)髦”。總的原則應(yīng)當(dāng)是,在市場(chǎng)需求明確且可持續(xù)的情況下,因地制宜、按需建設(shè)、適當(dāng)超前。
一些地方也加強(qiáng)了對(duì)智算中心運(yùn)營(yíng)的要求,比如山東德州價(jià)值約2億元的“全國(guó)一體化工業(yè)大數(shù)據(jù)山東云中心省會(huì)經(jīng)濟(jì)圈區(qū)域分中心數(shù)據(jù)機(jī)房‘德智未來’智算中心項(xiàng)目”,就在招標(biāo)文件中明確寫明了“采用設(shè)計(jì)施工采購(gòu)運(yùn)營(yíng)一體化的模式建設(shè)”,要求運(yùn)營(yíng)期限不低于5年,并規(guī)定了項(xiàng)目驗(yàn)收投運(yùn)后每年算力的最低收益。
王為也表示,從政策角度上看,政府對(duì)智算中心的要求比以前多,以前是先把智算中心建起來就行,現(xiàn)在建設(shè)初期就會(huì)找好的運(yùn)營(yíng)方,或者建設(shè)與運(yùn)營(yíng)一體,保證算力的使用率。
“去年算力消耗以訓(xùn)練為主,目前看消解不了算力中心的算力,很多大模型廠商手里囤的算力也不少,一些大模型廠商也減少了預(yù)訓(xùn)練,不太需要對(duì)外租很大的算力了,F(xiàn)在很多智算中心也開始找一些推理的場(chǎng)景,研究落地應(yīng)用,使用端會(huì)更分散,整個(gè)市場(chǎng)應(yīng)該會(huì)更健康。”他說。