首頁 > 科技要聞 > 科技> 正文

英偉達競品AI芯片來了?AMD三箭齊發(fā),全線圍攻AI服務(wù)器市場

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2024-10-13 00:15

美國時間10月10日,AMD在舊金山召開了Advancing AI發(fā)布會。這是老對手英偉達2024 AI Summit 結(jié)束后的第三天。

與英偉達大會的不同之處在于,英偉達專注于軟件方面的更新,而AMD主打“硬”牌。

這一次,他們帶來了三款核心硬件產(chǎn)品:新版Instinct MI325X 、第五代EPYC 服務(wù)器和最新的第三代 DPU Pensando系列。

一天之內(nèi),服務(wù)器GPU、CPU、DPU三箭齊發(fā)。AMD董事會主席及首席執(zhí)行官蘇姿豐似乎決心重現(xiàn)她在AMD的前十年里,以EPYC服務(wù)器為基石,帶領(lǐng)AMD反超Intel的奇跡。

在開場詞中,蘇姿豐表示預(yù)計到2028年,AI加速器市場規(guī)模將達到5000億美元。

這一次,我們認為她的目標更為宏大:通過打通服務(wù)器的各個節(jié)點,瞄準規(guī)模數(shù)千億美元的AI服務(wù)器市場,成為領(lǐng)頭羊。

蘇姿豐還表示:對于AMD來講,AI平臺意味著四件核心事項:作為訓(xùn)練和推理的最強計算引擎、開放的軟件解決方案、建立深度共同創(chuàng)新的AI生態(tài)系統(tǒng)以及在集群水平上的系統(tǒng)設(shè)計。

本次發(fā)布會的三支箭正落在集群水平上的系統(tǒng)設(shè)計這一靶心。

野心已有,但最終還是要看三支箭是否足夠“鋒利”,能刺破英偉達構(gòu)筑的AI服務(wù)器鐵桶陣。

第一支箭:

新一代EPYC服務(wù)器發(fā)布,CPU也要助力AI

蘇姿豐執(zhí)掌AMD,十年磨兩劍:一是Ryzen芯片,另一個就是EPYC CPU服務(wù)器。

從2018年開始,EPYC服務(wù)器從市占率接近0%,經(jīng)過四代升級達到了2024年H1的34%。生生從英特爾手里奪走了CPU服務(wù)器市場的1/3份額。這也是蘇姿豐最得意的一場仗。

為了形成一體化的AI服務(wù)器陣列,今年,EPYC迎來了它的第五代升級——EPYC 9005系列。

AMD 第五代 EPYC 處理器(代號"Turin")采用了 臺積電 3/4nm 制程和 Zen 5 架構(gòu),最高配置擁有16個 Zen5的 CCD核心,內(nèi)含 192 核心和 384 線程。時鐘頻率可達 5GHz。這款處理器支持 AVX512 指令集,提供完整的 512 位數(shù)據(jù)路徑,并實現(xiàn)了 17% 的 IPC 性能提升。它使用 SP5 平臺,兼容前代"Genoa"處理器。內(nèi)存方面,它引入了DDR5支持,帶寬提升至6400 MT/s;I/O能力上,它支持PCIe Gen5和更多的PCIe通道;安全性方面增加了硬件級別的根信任和可信I/O功能。

Turin處理器的性能領(lǐng)先相當明顯,相比于上一代英特爾Xeon服務(wù)器,Turin在SPEC CPU測試中性能提升2.7倍,企業(yè)性能最高提升4.0倍,HPC(高性能計算)性能最高提升3.9倍。在不同的工作中雖然表現(xiàn)不一,但整體相較上一代EPYC服務(wù)器,Turin的提升也很大。

特別值得注意的是Turin在AI方面的能力提升和對GPU節(jié)點控制的優(yōu)化:它基于CPU的AI性能最高提升3.8倍,作為GPU主機節(jié)點時性能最高提升1.2倍。

對于這些提升,AMD做了一個形象的展示。如果你用Turin服務(wù)器替代上一代Xeon服務(wù)器的話,131個Turin就足夠達成1000個Xeon服務(wù)器的效果。

AMD還對Turin的AI適用性加強做了更深入的闡述。因為在AI時代,越來越少的人會把服務(wù)器專用于一般用途,多少都得和AI結(jié)合上,而在這種情況下,對AI有更好支持的Turin就是最好的選擇。

AMD也非常在意Turin作為GPU主機節(jié)點帶來的GPU算力提升。AMD優(yōu)化了CPU在AI工作流程中的關(guān)鍵動作,包括數(shù)據(jù)預(yù)處理、內(nèi)存復(fù)制、內(nèi)核啟動和任務(wù)協(xié)調(diào)等。這些優(yōu)化使得CPU在處理GPU協(xié)調(diào)任務(wù)時更高效,比前代產(chǎn)品快28%。

AMD和Xeon 8592做了一下對比,Turin讓MI300X的推理性能提升了8%,訓(xùn)練性能提升了20%。

針對英偉達H100,Turin更是使GPU集群的推理性能提升了高達20%,訓(xùn)練提升了15%。比自家的MI300X都強。

第五代EPYC的表現(xiàn)和側(cè)重,一方面顯示了AI戰(zhàn)略在AMD當下戰(zhàn)略中的重要性。另一方面也是對英特爾近兩代Xeon服務(wù)器都大力強調(diào)AI能力的回應(yīng)——就算上了AI,AMD的CPU服務(wù)器還是遙遙領(lǐng)先。

第二支箭:

MI325X登場,下一代GPU劍指B200

發(fā)布會上,蘇姿豐放出的第二支箭是MI300系列的第二代產(chǎn)品MI325X。它曾在2024 ComputerX上被簡短介紹過,但其技術(shù)細節(jié)從未被公布。作為目前最有望打破英偉達壟斷的GPU加速器產(chǎn)品,MI300系列的下一代產(chǎn)品備受關(guān)注。

此刻,答案終于揭曉:MI325X性能上超越了H200。

MI325X加速器采用了 AMD CDNA 3 GPU 架構(gòu),配備 256GB 下一代 HBM3E 高帶寬內(nèi)存。內(nèi)置 1530 億個晶體管。它提供了 6TB/s 的內(nèi)存帶寬,在 FP8 和 FP16 精度下分別達到 2.6 PF 和 1.3 PF 的峰值理論性能。

與英偉達上一代的旗艦GPU 加速器H200相比,MI325X的內(nèi)存容量更大(256Gvs141G),內(nèi)存帶寬也更高(6TB/s vs 4.8TB/s)。在算力方面,雖然英偉達官方宣稱H200的FP16 算力可達1.9 PF,但經(jīng)semianalysis實測,其實際算力約為1 PF,與H100持平,比MI325X低了30%。

因此AMD MI325X在推理方面的表現(xiàn)平均超越H200 30%,與其算力比提升相符。保持了上一代的領(lǐng)先優(yōu)勢。

由MI325X核心集成的GPU平臺包含 8 個 MI325X。該平臺總共提供 2TB HBM3E 高帶寬內(nèi)存,F(xiàn)P8 精度下的理論峰值性能達到 20.8 PF,F(xiàn)P16 精度下達到 10.4 PF。系統(tǒng)配備 AMD Infinity Fabric 互連技術(shù),帶寬高達 896 GB/s,總內(nèi)存帶寬達到了 48 TB/s。

相比于H200的集成平臺H200 HGX,MI325X平臺提供1.8倍的內(nèi)存量,1.3倍的內(nèi)存帶寬和1.3倍的算力水平。

在推理方面能相較H200 HGX提升至多1.4倍的表現(xiàn)水平。

AMD版GPU軟件系統(tǒng)ROCm在過去一年內(nèi)和主流AI開發(fā)平臺的適配性一直在磨合期,這導(dǎo)致其訓(xùn)練效果有待提升。但這一年來AMD一方面加強升級ROCm,一方面與AI開發(fā)平臺深度合作,總算是讓它有了一倍左右的提升。

這一提升的結(jié)果是,針對Meta Llama-2這種主流模型,MI325X的單GPU訓(xùn)練效率終于超越了H200。而在集群中,其訓(xùn)練效率仍和H200 HGX相當。

MI325X預(yù)計將于 2024 年第四季度開始出貨,與H200的大規(guī)模交付相差僅一個季度。鑒于目前英偉達遇到了B200和B100的封裝瓶頸,規(guī)模發(fā)貨被延遲,交付給OpenAI的也僅僅是工程樣機。如果MI325X的發(fā)貨規(guī)模能快速爬升,那理論上的代差就會被實際的出貨情況抹平,MI325X在市場上的實際對手就是H200,而它還比H200性能稍高。

現(xiàn)在就看AMD能否抓住這個窗口期,保證供應(yīng)鏈,趁機擴大市場了。

除了MI325X外,AMD還詳細介紹了更下一代MI300系列的GPU加速器MI350系列。

它采用了 AMD 的 CDNA 4 架構(gòu),使用先進的 3nm 制程工藝,配備高達 288GB 的 HBM3E 高帶寬內(nèi)存。MI350 系列的一個重要創(chuàng)新是新增了 FP4 和 FP6 數(shù)據(jù)類型支持,這可能會在保持計算精度的同時進一步提高 AI 訓(xùn)練和推理性能。

據(jù)AMD表示,MI355X的在FP16數(shù)據(jù)格式下的算力可達到2.3PF,比MI325X提升1.8倍,與B200的算力持平。而在FP6和FP4格式下,其算力可達9.2PF,比B200在FP6格式下算力提升近一倍,而與其在FP4格式下算力持平。

因此MI355X可以被視為AMD真正劍指B200的GPU芯片。

而MI355X的集成平臺則配備了 2.3TB HBM3E 高帶寬內(nèi)存,內(nèi)存帶寬高達 64 TB/s。在計算性能方面,MI355X 在 FP16 精度下可達 18.5 PF,F(xiàn)P8 精度下達到 37 PF。在新增的 FP6 和 FP4 數(shù)據(jù)類型下,它能達到 74 PF 的理論峰值性能。

不過這一產(chǎn)品需要等到2025年下半年才能發(fā)售。

AMD還在發(fā)布會上公布了其路線圖,除了以上的產(chǎn)品外,2026年AMD預(yù)計會發(fā)售基于新架構(gòu)的MI400系列GPU芯片。

除了硬件,AMD也提了一下自己在軟件棧上的進展。近一年來,AMD打通了所有主要AI開發(fā)平臺。獲取了PyTorch的零日更新(可以在軟件升級當天使用其新功能)支持及Triton的AMD 硬件兼容。

在模型層面,AMD加強了與Huggingface和Meta的合作,對于超過100萬種主流模型都能做到開箱即用。Meta的Llama模型還能做到零日支持(可以在模型升級當天使用其新功能)。

在這一系列合作的加持下,ROCm 的最新版本6.2,相較于舊版在推理和訓(xùn)練上都有了超過2倍的提升。

在2024年第二季度的財報中,MI300在單季度內(nèi)就實現(xiàn)了超過10億美元的銷售額,這一成績遠超市場預(yù)期。雖然服務(wù)器業(yè)務(wù)綜合銷售額僅為英偉達同期的13%。但就目前的形勢來看,MI325X很有可能擴大MI300帶來的市場占有率。

至于價格,AMD表示從性價比上講,MI325X將相對競爭對手保持優(yōu)勢。

第三支箭:

用新DPU解決AI數(shù)據(jù)傳輸瓶頸

對于大多數(shù)公司來講,數(shù)據(jù)傳輸可能才是他們模型訓(xùn)練中最大的攔路虎。

想要構(gòu)建一個好的數(shù)據(jù)服務(wù)器集群,除了算力扎實以外,核心任務(wù)是實現(xiàn)高效的數(shù)據(jù)傳輸,確保能夠快速處理和分發(fā)海量的訓(xùn)練數(shù)據(jù),從而最大化GPU利用率。

與此同時,支持大規(guī)模GPU并行計算也成為了一項關(guān)鍵能力,服務(wù)器需要能夠協(xié)調(diào)大量GPU的同時運作,并在擴展過程中保持近乎線性的性能提升。

很多基礎(chǔ)模型公司甚至將它作為AI工程的核心。Meta在訓(xùn)練Llama 3.1時就專門搭建了一個相當復(fù)雜的集群,力圖增加并聯(lián)GPU數(shù)量和數(shù)據(jù)效率,并選擇了RoCE v2傳輸協(xié)議解決網(wǎng)絡(luò)問題。經(jīng)過多次分路和調(diào)整數(shù)據(jù)包的大小實驗,Meta的工程團隊才成功達成了一個相對高效的數(shù)據(jù)傳輸水平和穩(wěn)定性。

(Meta的相關(guān)論文)

但這種工程能力并非所有開發(fā)模型的公司都有,數(shù)據(jù)傳輸往往會成為計算集群的核心卡點,使得GPU的算力無法得到滿載發(fā)揮。

AMD這次推出的第三代可編程 P4引擎就旨在解決這一問題。它的傳輸速度可以達到400GB/s,與英偉達最新的DPU BlueField-3持平。而且它支持120M每秒的可編程數(shù)據(jù)包,和5M每秒的并發(fā)服務(wù)速度。

這一芯片的核心特性就是在處理并聯(lián)GPU的后端網(wǎng)絡(luò)優(yōu)化,它能針對高負載數(shù)據(jù)進行負載均衡和擁塞管理,可以避免同一數(shù)據(jù)通路上產(chǎn)生數(shù)據(jù)包阻塞,還能在丟包時僅重發(fā)丟失的包,而非一口氣把所有數(shù)據(jù)重發(fā)一遍;它還支持快速故障恢復(fù),可以繞過出現(xiàn)錯誤的GPU所在的數(shù)據(jù)通路,避免整個集群直接癱瘓,并試圖自動修復(fù)該處的數(shù)據(jù)包故障。

AMD為前端網(wǎng)絡(luò)提供的解決方案是Pensando Salina 400 DPU,它采用 400G PCIe Gen 5 接口,配備 232 P4 多服務(wù)MPU,雙通道 DDR5 內(nèi)存(帶寬高達 102GB/s,最大容量 128GB),以及 16 個 N1 ARM 核心。該產(chǎn)品支持軟件定義網(wǎng)絡(luò)、有狀態(tài)防火墻、加密、負載均衡、網(wǎng)絡(luò)地址轉(zhuǎn)換和存儲卸載等功能。其核心數(shù)量與BlueField-3持平,但內(nèi)存和帶寬都有提升(BlueField-3僅有32G DDR5內(nèi)存)。

簡單來說,這一DPU從硬件基礎(chǔ)上比英偉達的同類產(chǎn)品BlueField-3擁有更多的吞吐內(nèi)存,在網(wǎng)絡(luò)調(diào)節(jié)中也更自由。

而后端網(wǎng)絡(luò)的網(wǎng)卡則為Pensando Pollara 400,這是業(yè)界首款支持 Ultra Ethernet Consortium 標準的 AI 網(wǎng)絡(luò)接口卡(NIC)。該產(chǎn)品具有可編程硬件管道,性能提升最高達 6 倍,支持 400Gbps 的網(wǎng)絡(luò)速度。它采用開放生態(tài)系統(tǒng)設(shè)計,支持 UEC Ready RDMA 技術(shù),可縮短作業(yè)完成時間,并提供高可用性。Pollara 400 的主要特性包括可編程 RDMA 傳輸、可編程擁塞控制和通信庫加速。

因此,通過AMD的DPU產(chǎn)品,其對于AI服務(wù)器網(wǎng)絡(luò)的利用率可以達到95%,而一般未優(yōu)化數(shù)據(jù)網(wǎng)絡(luò)僅能做到不到50%。

這些提升背后的秘密武器是UEC(超級以太網(wǎng)聯(lián)盟)協(xié)議,據(jù)AMD宣稱,其相比于Meta訓(xùn)練時使用的傳統(tǒng)的RoCE v2協(xié)議,服務(wù)器中信息傳輸速度能提高 6 倍,集群間信息傳輸速度提高了5倍。而且之前的智能分路等多種功能也都是內(nèi)嵌于UEC協(xié)議之中的。

目前AMD的新款DPU是唯一支持UEC協(xié)議的數(shù)據(jù)網(wǎng)絡(luò)傳輸產(chǎn)品。英偉達的BlueField-3目前僅支持EoCE v2協(xié)議,而且它想要轉(zhuǎn)換協(xié)議并非易事,除了需要面對AMD的專利瓶頸外,硬件兼容性也需要一個較長的過程才能完成。

雖然AMD在2022年就收購了Pansando公司,并推出了兩代DPU產(chǎn)品。但它都沒能打破英偉達由BlueField系列構(gòu)建的DPU霸權(quán)。畢竟據(jù)英偉達官方介紹,搭配BlueField,英偉達的GPU集群表現(xiàn)可以提升1.7倍。

但如果UEC被實際證明確實高效,AMD就至少成功搶占了在DPU上的先發(fā)優(yōu)勢。

結(jié) 語

在蘇姿豐的帶領(lǐng)下,AMD花了十年時間重新回到了芯片的核心賽圈。

而下一個十年,也是AI蓬勃發(fā)展的黃金十年。蘇姿豐瞄準這一方向沖刺,她在采訪中曾說:“AI正在推動一場革命,并迅速重塑科技行業(yè)的方方面面,從數(shù)據(jù)中心到AI PC和邊緣計算!

在新的十年的開始之際,AMD通過這次發(fā)布會準備在AI領(lǐng)域進行全線布局,讓服務(wù)器的三大支柱都ALL IN AI。

不過,AMD是否還能繼續(xù)攻城略地,成功逆襲,目前尚未可知。這次蘇姿豐面對對手畢竟與當初不同。

本文來源:騰訊科技

騰訊科技

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部
    国产younv在线精品,先锋AV无码资源不卡,亚洲国产高清不卡在线播放,伊人久久东京av