通信世界網(wǎng)消息(CWW)“這是一場開發(fā)者大會,不是一場發(fā)布會。”
雖然英偉達(dá)CEO黃仁勛一再強調(diào)這是一場技術(shù)大會,但是在大洋彼岸的圣何塞,GTC依然開出了演唱會的架勢,人山人海,全場沸騰,多少人徹夜無眠,密切關(guān)注著這場人工智能領(lǐng)域的頂級行業(yè)盛會——3月18日舉辦的英偉達(dá)GTC大會。
GTC是英偉達(dá)一年一度規(guī)模最大的技術(shù)盛會。在今年的GTC舞臺上,英偉達(dá)亮出了多個最新的人工智能重磅產(chǎn)品。如:
面向工業(yè)革命的Blackwell GPU、
面向人形機器人的Project GR00T、
專為大規(guī)模AI量身訂制的全新網(wǎng)絡(luò)交換機-X800系列、
面向自動駕駛汽車的下一代集中式計算平臺NVIDIA DRIVE Thor,
以及生成式AI微服務(wù)……
這一系列的“王炸”套餐讓我們充分意識到,英偉達(dá)的人工智能早已不再是實驗室產(chǎn)品,它已經(jīng)走向社會,走向工業(yè),走向未來,開始深切地改變?nèi)藗兊纳a(chǎn)和生活。
Blackwell平臺成為工業(yè)革命新引擎
發(fā)布會一開始,英偉達(dá)便亮出了“核彈”級AI產(chǎn)品Blackwell GPU。
Blackwell GPU架構(gòu)搭載六項變革性的加速計算技術(shù),能夠在擁有高達(dá)10萬億參數(shù)的模型上實現(xiàn)AI訓(xùn)練和實時LLM推理,這些技術(shù)將助推數(shù)據(jù)處理、工程模擬、電子設(shè)計自動化、計算機輔助藥物設(shè)計、量子計算和生成式AI等領(lǐng)域?qū)崿F(xiàn)突破,這些都是NVIDIA眼中的新興行業(yè)機遇。
“Blackwell GPU是推動新一輪工業(yè)革命的引擎。通過與全球最具活力的企業(yè)合作,我們將實現(xiàn)AI賦能各行各業(yè)的承諾。”黃仁勛表示。該平臺可使世界各地的機構(gòu)都能夠在萬億參數(shù)的大語言模型(LLM)上構(gòu)建和運行實時生成式AI,其成本和能耗較上一代產(chǎn)品降低多達(dá)25倍。
具體的六大加速計算技術(shù)如下:
全球最強大的芯片:Blackwell架構(gòu)GPU具有2080億個晶體管,采用專門定制的雙倍光刻極限尺寸4NP TSMC工藝制造,通過10 TB/s的片間互聯(lián),將 GPU 裸片連接成一塊統(tǒng)一的 GPU。
第二代Transformer引擎:Blackwell 將在新型 4 位浮點 AI 推理能力下實現(xiàn)算力和模型大小翻倍。
第五代 NVLink:最新一代 NVIDIA NVLink? 為每塊 GPU 提供突破性的 1.8TB/s 雙向吞吐量,確保多達(dá) 576 塊 GPU 之間的無縫高速通信,滿足了當(dāng)今最復(fù)雜 LLM 的需求。
RAS引擎:采用Blackwell架構(gòu)的GPU包含一個用于保障可靠性、可用性和可維護性的專用引擎。
安全AI:先進的機密計算功能可以在不影響性能的情況下保護 AI 模型和客戶數(shù)據(jù),并且支持全新本地接口加密協(xié)議,這對于醫(yī)療、金融服務(wù)等高度重視隱私問題的行業(yè)至關(guān)重要。
解壓縮引擎:專用的解壓縮引擎支持最新格式,通過加速數(shù)據(jù)庫查詢提供極其強大的數(shù)據(jù)分析和數(shù)據(jù)科學(xué)性能。
這個新架構(gòu)以紀(jì)念David Harold Blackwell命名,他不僅是一位專門研究博弈論和統(tǒng)計學(xué)的數(shù)學(xué)家,也是第一位入選美國國家科學(xué)院的黑人學(xué)者。這一新架構(gòu)是繼兩年前推出的 NVIDIA Hopper? 架構(gòu)以來的全新架構(gòu)。
黃仁勛表示,Blackwell 將成為世界上最強大的芯片。Blackwell 架構(gòu)的 GPU 擁有 2080 億個晶體管,采用臺積電4nm制程,兩塊小芯片之間的互聯(lián)速度高達(dá) 10TBps,可以大幅度提高處理能力。前一代GPU“Hopper”H100采用4nm工藝,集成晶體管800億。
Blackwell 不是芯片名,而是整個平臺的名字。具體來講,采用 Blackwell 架構(gòu)的 GPU 分為了 B200 和 GB200 產(chǎn)品系列,后者集成了 1 個 Grace CPU 和 2 個 B200 GPU。
其中 B200 GPU 通過 2080 億個晶體管提供高達(dá) 20 petaflops 的 FP4 吞吐量。而 GB200 GPU 通過 900GB / 秒的超低功耗芯片到芯片連接,將兩個 B200 GPU 連接到 1 個 Grace CPU 上。相較于 H100 Tensor Core GPU,GB200 超級芯片可以為大語言模型(LLM)推理負(fù)載提供 30 倍的性能提升,并將成本和能耗降低高達(dá) 25 倍。
GB200是NVIDIA GB200 NVL72 的關(guān)鍵組件。NVIDIA GB200 NVL72 是一套多節(jié)點液冷機架級擴展系統(tǒng),適用于高度計算密集型的工作負(fù)載。它將 36 個 Grace Blackwell 超級芯片組合在一起,其中包含通過第五代 NVLink 相互連接的 72 個 Blackwell GPU 和 36 個 Grace CPU。
對于LLM 推理工作負(fù)載,相較于同樣數(shù)量的 NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及多達(dá) 25 倍的成本和能耗降低。
此外還有HGX B200 是一個通過NVLink連接 8 塊 B200 GPU 的服務(wù)器主板,支持基于x86的生成式 AI 平臺?;?NVIDIA Quantum-2 InfiniBand 和 Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺,HGX B200 支持高達(dá) 400Gb/s 的網(wǎng)絡(luò)速度。
據(jù)了解,GB200將于今年晚些時候上市。對此,黃仁勛表示,GB200將為人工智能公司提供了巨大的性能升級,其AI性能為每秒20千萬億次浮點運算,而H100為每秒4千萬億次浮點運算。該系統(tǒng)可以部署一個27萬億參數(shù)的模型。據(jù)稱GPT-4使用了約1.76萬億個參數(shù)來訓(xùn)練系統(tǒng)。
發(fā)布新一代AI超級計算機
NVIDIA還發(fā)布了新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的NVIDIA DGX SuperPOD?。這臺 AI 超級計算機可以用于處理萬億參數(shù)模型,能夠保證超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載的持續(xù)運行。
全新 DGX SuperPOD 采用新型高效液冷機架級擴展架構(gòu),基于 NVIDIA DGX? GB200 系統(tǒng)構(gòu)建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存,且可通過增加機架來擴展性能。
與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級芯片在大語言模型推理工作負(fù)載方面的性能提升了高達(dá) 30 倍。
“NVIDIA DGX AI 超級計算機是推進 AI 產(chǎn)業(yè)變革的工廠。新一代DGX SuperPOD 集 NVIDIA 加速計算、網(wǎng)絡(luò)和軟件方面的最新進展于一體,能夠幫助每一個企業(yè)、行業(yè)和國家完善并生成自己的 AI?!秉S仁勛表示。
Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統(tǒng)構(gòu)建而成,這些系統(tǒng)通過 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)連接,可擴展到數(shù)萬個 GB200 超級芯片。用戶可通過 NVLink 連接 8 個 DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。
發(fā)布人形機器人模型Project GR00T
“開發(fā)通用人形機器人基礎(chǔ)模型是當(dāng)今 AI 領(lǐng)域中最令人興奮的課題之一。世界各地的機器人技術(shù)領(lǐng)導(dǎo)者正在匯集各種賦能技術(shù),致力于在人工通用機器人領(lǐng)域?qū)崿F(xiàn)突破。”黃仁勛表示。
NVIDIA發(fā)布了人形機器人通用基礎(chǔ)模型Project GR00T,旨在進一步推動其在機器人和具身智能方面的突破。GR00T驅(qū)動的機器人(代表通用機器人 00 技術(shù))將能夠理解自然語言,并通過觀察人類行為來模仿動作——快速學(xué)習(xí)協(xié)調(diào)、靈活性和其它技能,以便導(dǎo)航、適應(yīng)現(xiàn)實世界并與之互動。
NVIDIA還發(fā)布了一款基于NVIDIA Thor 系統(tǒng)級芯片(SoC)的新型人形機器人計算機Jetson Thor,并對NVIDIA Isaac? 機器人平臺進行了重大升級,包括生成式 AI 基礎(chǔ)模型和仿真工具,以及 AI 工作流基礎(chǔ)設(shè)施。
Jetson Thor 是一個全新的計算平臺,能夠執(zhí)行復(fù)雜的任務(wù)并安全、自然地與人和機器交互,具有針對性能、功耗和尺寸優(yōu)化的模塊化架構(gòu)。
該SoC包括一個帶有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架構(gòu),可提供每秒 800 萬億次8位浮點運算 AI 性能,以運行 GR00T 等多模態(tài)生成式 AI 模型。憑借集成的功能安全處理器、高性能 CPU 集群和 100GB 以太網(wǎng)帶寬,大大簡化了設(shè)計和集成工作。
NVIDIA 正在為領(lǐng)先的人形機器人公司開發(fā)一個綜合的 AI 平臺,如 1X Technologies、Agility Robotics、Apptronik、波士頓動力公司、Figure AI、傅利葉智能、Sanctuary AI、宇樹科技和小鵬鵬行等。
訓(xùn)練具身智能模型需要海量的真實數(shù)據(jù)和合成數(shù)據(jù)。新的 Isaac Lab 是一個 GPU 加速、性能優(yōu)化的輕量級應(yīng)用,基于 Isaac Sim 而構(gòu)建,專門用于運行數(shù)千個用于機器人學(xué)習(xí)的并行仿真。NVIDIA 還發(fā)布了 Isaac Manipulator 和 Isaac Perceptor 等一系列機器人預(yù)訓(xùn)練模型、庫和參考硬件。
全新交換機X800系列全面優(yōu)化基礎(chǔ)設(shè)施
NVIDIA 還發(fā)布了專為大規(guī)模 AI 量身訂制的全新網(wǎng)絡(luò)交換機 - X800 系列。
NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)和 NVIDIA Spectrum?-X800 以太網(wǎng)絡(luò)是全球首批高達(dá) 800Gb/s 端到端吞吐量的網(wǎng)絡(luò)平臺,將計算和 AI 工作負(fù)載的網(wǎng)絡(luò)性能提升到了一個新的水平,與其配套軟件強強聯(lián)手可進一步加速各種數(shù)據(jù)中心中的 AI、云、數(shù)據(jù)處理和高性能計算(HPC)應(yīng)用,包括基于最新的 NVIDIA Blackwell 架構(gòu)產(chǎn)品的數(shù)據(jù)中心。
“NVIDIA 網(wǎng)絡(luò)平臺是 AI 超級計算基礎(chǔ)設(shè)施實現(xiàn)大規(guī)??蓴U展的核心?;?NVIDIA X800 交換機的端到端網(wǎng)絡(luò)平臺,使新型 AI 基礎(chǔ)設(shè)施輕松運行萬億參數(shù)級生成式 AI 業(yè)務(wù)?!盢VIDIA 網(wǎng)絡(luò)高級副總裁 Gilad Shainer 表示。
Quantum-X800 平臺包含了 NVIDIA Quantum Q3400 交換機和 NVIDIA ConnectX?-8 SuperNIC,二者互連達(dá)到了業(yè)界領(lǐng)先的端到端 800Gb/s 吞吐量,交換帶寬容量較上一代產(chǎn)品提高了 5 倍,網(wǎng)絡(luò)計算能力更是憑借 NVIDIA 的 SHARP? 技術(shù)(SHARPv4)提高了 9 倍,達(dá)到了 14.4Tflops。
Spectrum-X800 平臺為 AI 云和企業(yè)級基礎(chǔ)設(shè)施帶來優(yōu)化的網(wǎng)絡(luò)性能。借助 800Gb/s 的 Spectrum SN5600 交換機和 NVIDIA BlueField-3 SuperNIC,Spectrum-X800 平臺為多租戶生成式 AI 云和大型企業(yè)級用戶提供各種至關(guān)重要的先進功能。
NVIDIA 提供面向萬億參數(shù)級 AI 模型性能優(yōu)化的網(wǎng)絡(luò)加速通信庫、軟件開發(fā)套件和管理軟件等全套軟件方案。
DRIVE Thor改變自動駕駛的未來
NVIDIA DRIVE Thor是用于安全可靠的自動駕駛汽車的下一代集中式計算平臺,它可將多項智能功能整合在單個系統(tǒng)中,從而提高了效率,降低了整體系統(tǒng)成本。
作為DRIVE Orin 的后續(xù)產(chǎn)品,DRIVE Thor可提供豐富的座艙功能,以及安全可靠的高度自動化駕駛和無人駕駛功能,并將所有功能整合至同一個集中式平臺上。這款新一代自動駕駛汽車(AV)平臺將搭載專為Transformer、大語言模型(LLM)和生成式AI工作負(fù)載而打造的全新NVIDIA Blackwell 架構(gòu)。
NVIDIA DRIVE Thor將徹底改變汽車行業(yè)的格局,開創(chuàng)生成式AI定義駕駛體驗的時代。多家頭部電動汽車制造商在GTC上宣布其搭載DRIVE Thor的下一代AI車型。
比亞迪正在將與NVIDIA的長期協(xié)作從車端延伸到云端。除了在 DRIVE Thor上構(gòu)建下一代電動車型外,比亞迪還計劃將NVIDIA的AI基礎(chǔ)設(shè)施用于云端AI開發(fā)和訓(xùn)練技術(shù),并使用NVIDIA Isaac?與NVIDIA Omniverse?平臺來開發(fā)用于虛擬工廠規(guī)劃和零售配置器的工具與應(yīng)用。
除乘用車外,DRIVE Thor還能夠滿足卡車、自動駕駛出租車、配送車等其他細(xì)分領(lǐng)域的不同需求。在這些領(lǐng)域中,高性能計算和AI對于確保安全、可靠的駕駛操作至關(guān)重要。
DRIVE Thor預(yù)計最早將于明年開始量產(chǎn),并且將使用具有生成式AI引擎等前沿功能的全新NVIDIA Blackwell架構(gòu)。DRIVE Thor的性能高達(dá)1000 TFLOPS,有助于保證自動駕駛汽車的安全可靠。
Omniverse Cloud API為工業(yè)數(shù)字孿生軟件工具提供助力
黃仁勛認(rèn)為,未來所有制造出來的產(chǎn)品都將擁有數(shù)字孿生。為此NVIDIA宣布將以API形式提供Omniverse? Cloud,將該全球領(lǐng)先的工業(yè)數(shù)字孿生應(yīng)用和工作流創(chuàng)建平臺的覆蓋范圍擴展至整個軟件制造商生態(tài)系統(tǒng)。
借助五個全新Omniverse Cloud應(yīng)用編程接口(API),開發(fā)者能夠輕松地將Omniverse的核心技術(shù)直接集成到現(xiàn)有的數(shù)字孿生設(shè)計與自動化軟件應(yīng)用中,或是集成到用于測試和驗證機器人或自動駕駛汽車等自主機器的仿真工作流中。
一些全球大型工業(yè)軟件制造商正在將Omniverse Cloud API加入到其軟件組合中,包括 Ansys、Cadence、達(dá)索系統(tǒng)旗下3DEXCITE品牌、Hexagon、微軟、羅克韋爾自動化、西門子和Trimble等。
黃仁勛表示:“Omniverse是一個可以構(gòu)建并操作物理真實的數(shù)字孿生的操作系統(tǒng)。Omniverse和生成式AI都是將價值高達(dá)50萬億美元的重工業(yè)市場進行數(shù)字化所需的基礎(chǔ)技術(shù)。”
自動化、數(shù)字化和可持續(xù)發(fā)展領(lǐng)域的技術(shù)領(lǐng)先企業(yè)西門子正在其西門子Xcelerator平臺中采用Omniverse Cloud API,首先采用的是領(lǐng)先的云端產(chǎn)品生命周期管理(PLM)軟件Teamcenter X。
推出生成式AI微服務(wù)
“成熟的企業(yè)平臺坐擁數(shù)據(jù)金礦,這些數(shù)據(jù)可以轉(zhuǎn)化為生成式 AI 助手。我們與合作伙伴生態(tài)系統(tǒng)一起創(chuàng)建的這些容器化 AI 微服務(wù),是各行業(yè)企業(yè)成為 AI 公司的基石?!盢VIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示。
為此,NVIDIA 推出生成式 AI 微服務(wù),供開發(fā)者在已安裝 NVIDIA CUDA GPU 的系統(tǒng)中創(chuàng)建和部署生成式 AI 助手
NVIDIA推出數(shù)十項企業(yè)級生成式 AI 微服務(wù),企業(yè)可以利用這些微服務(wù)在自己的平臺上創(chuàng)建和部署定制應(yīng)用,同時保留對知識產(chǎn)權(quán)的完整所有權(quán)和控制權(quán)。
NVIDIA還推出二十多項全新微服務(wù),使全球醫(yī)療企業(yè)能夠在任何地點和任何云上充分利用生成式 AI 的最新進展。
全新 NVIDIA 醫(yī)療微服務(wù)套件包含經(jīng)過優(yōu)化的 NVIDIA NIM? AI 模型和工作流,并提供行業(yè)標(biāo)準(zhǔn)應(yīng)用編程接口(API),可用于創(chuàng)建和部署云原生應(yīng)用。它們提供先進的醫(yī)學(xué)影像、自然語言和語音識別以及數(shù)字生物學(xué)生成、預(yù)測和模擬功能。
此外,NVIDIA 加速的軟件開發(fā)套件和工具,包括 Parabricks?、MONAI、NeMo?、Riva、Metropolis,現(xiàn)已通過 NVIDIA CUDA-X? 微服務(wù)提供訪問,以加速藥物研發(fā)、醫(yī)學(xué)影像、基因組學(xué)分析等醫(yī)療工作流。
這些微服務(wù),其中 25 個已推出,可以加快醫(yī)療企業(yè)的轉(zhuǎn)型,因為生成式 AI 為制藥公司、醫(yī)生和醫(yī)院帶來了眾多的機會。其中包括篩選數(shù)萬億種藥物化合物以促進醫(yī)學(xué)發(fā)展、收集更完善的患者數(shù)據(jù)以改進早期疾病檢測、實現(xiàn)更智能的數(shù)字助手等。
擁抱量子計算推出云量子計算機模擬微服務(wù)
量子計算是下一輪計算變革的前沿領(lǐng)域,為此NVIDIA推出一項云服務(wù),旨在幫助研究人員和開發(fā)人員在化學(xué)、生物學(xué)、材料科學(xué)等關(guān)鍵科學(xué)領(lǐng)域的量子計算研究中取得突破。
NVIDIA 量子云基于 NVIDIA 開源 CUDA-Q 量子計算平臺 —— 部署量子處理器(QPU)的公司有四分之三都在使用該平臺。其作為一項微服務(wù),首次支持用戶在云端構(gòu)建并測試新的量子算法和應(yīng)用,包括支持量子-經(jīng)典混合算法編程的功能強大的模擬器和工具等。
NVIDIA 的量子計算生態(tài)系統(tǒng)目前已有 160 多家合作伙伴。Google Cloud、Microsoft Azure 、Oracle Cloud Infrastructure 等領(lǐng)先的云服務(wù)提供商,以及 IQM Quantum Computers、OQC、ORCA Computing、qBraid 和 Quantinuum 等量子領(lǐng)域的領(lǐng)先企業(yè),都正在將量子云集成到自己的產(chǎn)品中。
在大會上,英偉達(dá)也展示了自己的朋友圈,如今擁抱AI的企業(yè)越來越多,在改變社會方面也展現(xiàn)出越來越大的市場前景。面向工業(yè)領(lǐng)域,AI能發(fā)揮的作用還非常大,英偉達(dá)邁出的可謂劃時代的一步,此前英偉達(dá)的營收已經(jīng)超過了半導(dǎo)體領(lǐng)軍者英特爾,未來這個即將用AI吞噬世界的怪獸將如何用技術(shù)改變世界,未來的發(fā)展可能會遠(yuǎn)遠(yuǎn)超出我們的想象。
- QQ:61149512