“AI的發(fā)展比我們想象中快太多了?!盇MD首席執(zhí)行官蘇姿豐在12月7日舉行的AMD Advancing AI大會上如此感慨。她認為,AI加速器在2023年的市場規(guī)模將達到450億美元,而在2027年將發(fā)展到4000億美元。而在一年前,蘇姿豐的預測僅是從2023年的300億美元增加至2027年的1500億美元。
蘇姿豐預測到2027年AI加速器市場規(guī)模將到4000億美元
該預測不僅是對當前人工智能浪潮的期待,也是對AMD用于人工智能大模型訓練與推理的新一代加速卡MI300X發(fā)布的鋪墊。早在今年6月,AMD就已經傳出將會推出Instinct MI300的升級版產品,而在今天它終于揭開了神秘面紗。
據了解,MI300X內置了8個XCD共304個CNDA 3架構的計算單元以及4個IOD,性能相較于此前普遍應用的MI250系列提升了約30%。在存儲性能上,AMD使用8個HBM3堆棧,帶來了高達192GB的內存以及5.3TB/s的最大帶寬。
“對于生成式人工智能而言,內存和帶寬至關重要?!碧K姿豐表示?,F(xiàn)場信息顯示,MI300X的存儲表現(xiàn)優(yōu)于英偉達的H100,而對比此前英偉達透露的H200,其存儲性能規(guī)格也優(yōu)于使用HBM3e的H200。
之后蘇姿豐推出了由8塊MI300X組成的MI300X Platform,并將其同當前市面上主流的英偉達HGX H100進行了性能對比。根據AMD現(xiàn)場提供的數據,在大模型訓練能力上兩者不分伯仲,而在70億參數的Llama2和160億參數的Bloom的推理上,由于AMD單卡具備更好的存儲性能,推理效率已經超越了英偉達。然而,在加速器平臺內部的卡間帶寬上,由于英偉達擁有NVLink技術的加持,AMD 896GB/s的表現(xiàn)仍略低于英偉達。
AMD MI300X Platform與英偉達HGX H100性能對比
會上AMD公布的另一進展,則是“世界首款專用于數據中心和AI的加速器”MI300A,與MI300X這類純GPU產品不同,MI300A集成了AMD Zen4架構的CPU。AMD表示,憑借GPU和帶寬的優(yōu)勢,MI300A 在HPC中可提供比H100高達4倍的性能提升。
在此前AMD發(fā)布的第三季度財報中,蘇姿豐表示:“我們的強勁收入和盈利增長得益于銳龍7000系列PC處理器和服務器處理器的銷售。我們的數據中心業(yè)務正處于強勢增長階段,基于EPYC(霄龍) CPU產品組合的強大實力和Instinct加速器出貨量的增長,我們將為超大規(guī)模、企業(yè)級和人工智能客戶提供多種部署方案?!?/p>
在數據中心業(yè)務之外,PC也是AMD的重要增長點。AMD此次推出了Ryzen 8040系列APU。蘇姿豐表示,這是專為客戶端和消費類 PC 設計的處理器,主要針對筆記本電腦市場,其中高端的版本可面向AI PC。據了解,此前高通發(fā)布了針對AI PC的處理器驍龍X Elite,而英特爾也將在12月中旬發(fā)布面向AI的新一代酷睿處理器。AMD入局后,圍繞AI PC處理器的競爭將愈演愈烈。
除了硬件性能的大幅升級,AMD也在積極布局軟件生態(tài)。眾所周知,CUDA構成了英偉達的護城河,使用英偉達旗下產品的開發(fā)人員在長期研發(fā)的過程中建立了強力的黏性。AMD在今日更新了ROCm軟件棧,并針對生成式AI進行了優(yōu)化,會上數據顯示,“MI300X+ROCm6”的產品組合相較于此前的“MI250+ROCm5”,在Llama2上的文本生成效率提升了約8倍。
MI300X配合ROCm6的性能提升
“CUDA為開發(fā)者提供了硬件的直接訪問接口,而不必像傳統(tǒng)方式一樣必須依賴圖形API接口來實現(xiàn)對GPU的訪問。相比CUDA,ROCm作為開源生態(tài)系統(tǒng)可在多種操作系統(tǒng)和不同硬件架構上運行,這也為開發(fā)者提供了更好的靈活性和可移植?!辟惖项檰栄芯繂T鄧楚翔告訴《中國電子報》記者。
開源或許無法短時間內對CUDA的穩(wěn)固生態(tài)帶來影響,但越來越多的合作者,正在支持AMD的生態(tài)。微軟CTO凱文·斯科特表示,Azure將開放Instinct MI300X虛擬機的預覽,Meta高管也表示將在自己的AI和數據中心業(yè)務中使用MI300X。OpenAI致信表示:“我們正在與AMD合作,以支持開放生態(tài)系統(tǒng)。我們計劃在Triton3.0版本中支持AMD的GPU?!?/p>
- QQ:61149512