打造“AI工廠”,摩爾線程為什么強調(diào)系統(tǒng)級創(chuàng)新?
7月25日,摩爾線程在世界人工智能大會(WAIC 2025)開幕前夕舉行技術(shù)分享會。
19小時前
來源:中國電子報、電子信息產(chǎn)業(yè)網(wǎng) 姬曉婷??

7月25日,摩爾線程在世界人工智能大會(WAIC 2025)開幕前夕舉行技術(shù)分享會。會上,摩爾線程創(chuàng)始人兼CEO張建中表示,將以系統(tǒng)級技術(shù)創(chuàng)新與工程化能力打造用于生產(chǎn)智能的“AI工廠”。在他看來,“AI工廠”,如同芯片晶圓廠的制程升級,是一個系統(tǒng)性、全方位的變革,需要實現(xiàn)從底層芯片架構(gòu)創(chuàng)新、到集群整體架構(gòu)的優(yōu)化,再到軟件算法調(diào)優(yōu)和資源調(diào)度系統(tǒng)的全面升級。

AI工廠的生產(chǎn)效率取決于加速計算通用性、單芯片有效算力、單節(jié)點效率、集群效率、集群穩(wěn)定性,這五大元素相互配合,缺一不可。與之相對應(yīng),摩爾線程以全功能GPU、MUSA架構(gòu)、MUSA軟件棧、KUAE集群、零中斷五大技術(shù),滿足AI工廠對生產(chǎn)效率的要求。

張建中在技術(shù)分享會上介紹摩爾線程高效AI工廠打造方案

為何要打造“AI工廠”?

全球前沿模型“智力”正迅猛增長。模型產(chǎn)業(yè)競爭激烈,迭代速度愈來愈快。全球代表性模型的迭代周期,從5—6個月逐漸縮減到1個月,甚至近期每周都有新的模型智能水平超越行業(yè)既有模型。以人類智力水平100分為標(biāo)準(zhǔn),DeepSeek V3在2024年12月推出時,評分為46分;今年5月推出的DeepSeek R1,智力水平已經(jīng)能夠達到68分。在不到半年的時間內(nèi),DeepSeek智能水平提升了50%以上。

這種高頻迭代不僅體現(xiàn)在大型語言模型(LLM)上,還同步擴展至多模態(tài)模型、語音模型、世界模型等前沿模型領(lǐng)域。這些模型在性能、效率和應(yīng)用場景上實現(xiàn)的指數(shù)級突破,不僅推動了AI從專用領(lǐng)域向通用智能的跨越,其快速迭代的特性更對新一代高性能人工智能計算基礎(chǔ)設(shè)施提出了迫切需求。

而訓(xùn)練具有高智能水平的模型,首先要算力足夠高、效率足夠高,才可以成為有效的算力。

張建中在主題演講中表示,為應(yīng)對生成式AI爆發(fā)式增長下的大模型訓(xùn)練效率瓶頸,摩爾線程旨在通過系統(tǒng)級創(chuàng)新,將全功能GPU加速平臺的強大潛能,轉(zhuǎn)化為工程級的訓(xùn)練效率與可靠性,為AGI時代打造生產(chǎn)先進模型的“超級工廠”。

相較于海外行業(yè)頭部企業(yè)代表,我國萬卡以上算力集群搭建仍處于追趕狀態(tài)。對于我國AI算力行業(yè)而言,部署規(guī)模更大、高效高可靠的大規(guī)模算力集群,仍是贏得國際競爭的重要技術(shù)路線。

何以提升單芯片有效算力?

算力芯片是AI工廠的技術(shù)基座。如果算力芯片不夠通用、性能不夠強,效率不夠高,AI工廠的地基就不夠牢。芯片運算效率高低取決于芯片架構(gòu)、驅(qū)動性能、算子優(yōu)化程度等多維因素。

在實際應(yīng)用中,芯片算力很少能夠達到理論峰值算力,實際運行算力與產(chǎn)品設(shè)計理論算力之間存在差值。而好的芯片架構(gòu),應(yīng)該像一個優(yōu)秀的管理者一樣,通過調(diào)度使所有的資源“忙”起來。

記者注意到,摩爾線程正在以多種方式提升芯片實際應(yīng)用算力。

摩爾線程在WAIC 2025展示全功能GPU在不同場景中的應(yīng)用實例

MUSA(Meta-computing Unified System Architecture,即元計算統(tǒng)一架構(gòu))是摩爾線程自研架構(gòu),其核心理念是——要做多引擎可配置的統(tǒng)一系統(tǒng)架構(gòu)。

首先是多引擎,體現(xiàn)在單顆GPU芯片上同時支持AI計算、圖形渲染、物理仿真和科學(xué)計算、超高清編解碼技術(shù),目前國內(nèi)只有以摩爾線程為代表的少數(shù)GPU廠商具備全功能能力。

其次,該架構(gòu)采用統(tǒng)一的MUSA編程接口,提供統(tǒng)一的API。這樣一來,開發(fā)者采用一套編程指令集就能驅(qū)動在MUSA架構(gòu)之下的多種算力引擎。

為了更好地調(diào)動存算資源,摩爾線程自主研發(fā)的加速引擎——張量計算引擎(TCE)和張量訪存引擎(TME)。前者將大大小小各種不同的復(fù)雜結(jié)構(gòu)高效組合起來,同時具備高精度累加器,能夠降低小數(shù)累入損失。后者用以充分發(fā)揮存儲的效率,支持Img2Col、矩陣轉(zhuǎn)置,能夠加速前、后處理。

即便是國際GPU頭部企業(yè),也仍然存在通信任務(wù)占用計算資源的問題。而將原本可用于計算的處理器用于通信,會損失運算效率。為解決這一問題,摩爾線程開發(fā)了ACE(異步通信引擎),能夠?qū)崿F(xiàn)異步DMA搬移,同時不占用計算核的資源和訪存帶寬,減少了15%的計算資源損耗;內(nèi)嵌同步機制,能夠提高跨引擎協(xié)同性能;采用多種訪存地址計算模式,提高搬移效率。

不僅如此,在計算層面,摩爾線程的AI加速系統(tǒng)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。作為國內(nèi)首批實現(xiàn)FP8算力量產(chǎn)的GPU廠商,其FP8技術(shù)通過快速格式轉(zhuǎn)換、動態(tài)范圍智能適配和高精度累加器等創(chuàng)新設(shè)計,在保證計算精度的同時,將Transformer計算性能提升約30%。

何以實現(xiàn)高效節(jié)點、集群算力?

軟件生態(tài)被視為芯片企業(yè)的“護城河”。摩爾線程著力建設(shè)的MUSA軟件棧正成為其全功能GPU性能發(fā)揮的有力支撐。

基于推理場景對Kernel延時敏感的現(xiàn)狀,MUSA的驅(qū)動和運行時庫,能夠幫助用戶實現(xiàn)Kernel launch開銷縮減:通過軟硬協(xié)同,核函數(shù)啟動延遲降低至業(yè)界平均水平的50%;近千次的計算和通信任務(wù)下發(fā)開銷,由近千次優(yōu)化為單次,GPU等待時間大大縮減;借助引擎間依賴解析技術(shù),任務(wù)流之間的依賴解析延時可大幅降低至1.5μs,優(yōu)于業(yè)界頭部算力卡。

MUSA算子庫提升了芯片計算效率

算子庫的效率直接關(guān)乎分布式集群的訓(xùn)練效率。

當(dāng)前,MUSA能夠提供三大算子庫:極致性能muDNN、易用的MUTLASS、MUSA AI Tensor Engine開源推理算子庫。

其中,muDNN是一款極致性能的開箱即用標(biāo)準(zhǔn)算子庫,完整覆蓋常見的前向和反向算子。能夠支持完整的XMMA,支持Tensor Core全精度及所有量化模式,以及常用的神經(jīng)網(wǎng)絡(luò)算子操作。當(dāng)前,業(yè)內(nèi)算子矩陣乘法的效率大部分可以做到90%以上,摩爾線程muDNN矩陣乘法算子效率可達到98%。國際一流廠商Flash Attention算子效率約為75%,而muDNN的Flash Attention能夠達到95%。

MUTLASS高性能的線性代數(shù)模板庫,可極大降低在MUSA環(huán)境中自定義算子的開發(fā)工作量,相當(dāng)于提供了一個可供二次開發(fā)的模板。當(dāng)前MUTLASS已在Github上開源,支持平湖架構(gòu)所有特性,同時提供高性能矩陣乘法、卷積算子實現(xiàn),在Kernel中調(diào)用模板庫就可以進行二次開發(fā)。

此外,摩爾線程即將發(fā)布的面向大語言模型的開源推理算子庫MUSA AI Tensor Engine,能夠幫助開發(fā)者快速搭建自定義推理引擎。該算子庫提供用戶友好的Python API,進一步降低開發(fā)者使用門檻,只要會Python就可以調(diào)用。

大模型訓(xùn)練動輒需要調(diào)動幾千張甚至幾萬張算力卡資源。要實現(xiàn)模型的高效訓(xùn)練,不僅單卡性能要高,還需要有強大的集群管理和調(diào)度能力。

摩爾線程在WAIC 2025現(xiàn)場展示KUAE夸娥智算集群

摩爾線程自研的夸娥(KUAE)計算集群,集成了計算集群、軟件平臺、管理系統(tǒng)、優(yōu)化系統(tǒng)以及維護和服務(wù)等一系列流程。整合數(shù)據(jù)、模型、張量、流水線和專家并行技術(shù),全面支持Transformer等主流架構(gòu);支持端到端的模型訓(xùn)練,能夠?qū)崿F(xiàn)對混合專家模型、自動駕駛模型、視頻生成模型、具身智能模型等多種類模型的全面支持。

在構(gòu)建高效集群的基礎(chǔ)上,穩(wěn)定可靠的運行環(huán)境是“AI工廠”持續(xù)產(chǎn)出的保障。在萬卡級AI集群中,硬件故障導(dǎo)致的訓(xùn)練中斷會嚴(yán)重浪費算力,甚至?xí)?dǎo)致訓(xùn)練團隊幾個月的努力付諸東流。

為此,摩爾線程推出零中斷容錯技術(shù),故障發(fā)生時僅隔離受影響節(jié)點組,其余節(jié)點繼續(xù)訓(xùn)練,備機無縫接入,全程無中斷。這一方案使KUAE集群有效訓(xùn)練時間占比超99%,大幅降低恢復(fù)開銷。同時,KUAE集群通過多維度訓(xùn)練洞察體系實現(xiàn)動態(tài)監(jiān)測與智能診斷,將異常處理效率提升50%;結(jié)合集群巡檢與起飛檢查,訓(xùn)練成功率提高10%,為大規(guī)模AI訓(xùn)練提供穩(wěn)定了保障。

最新文章
1
智能電視操作難倒父母?康佳電視G10系列用起來更簡單
2
酷開超級智能體獲中國泰爾實驗室國內(nèi)首張AI硬件智能體應(yīng)用成熟度證書
3
打造“AI工廠”,摩爾線程為什么強調(diào)系統(tǒng)級創(chuàng)新?
4
前五個月中國生活家電16%增速領(lǐng)跑,小家電市場依舊火熱
5
預(yù)計2025年全球Mini LED電視出貨量將達1156萬臺,同比增長50%
6
東北市場被嚴(yán)重低估?“南空北調(diào)”銷售額狂增800%
7
曝iPhone 17 Pro要漲價:蘋果扛不住了
8
Arm宣布正在自研芯片 Meta等巨頭搶先試用
9
Mate TV要來?華為智慧屏要在拐點發(fā)力了
10
熱度和銷量雙豐收!快手電商“寶藏小城”計劃首站告捷
11
賈樟柯推介“快手聚光短劇計劃”,探索精品微短劇創(chuàng)作的更多可能
12
茶文化新浪潮!磁力金牛助力茶商破局線上增長
13
快手啟動2026秋招:發(fā)力AI、超200個職位類型,部分年薪可超200萬元
14
征程·2025磁力引擎合作伙伴大會即將開啟
15
挖掘多元化短劇內(nèi)容,快手發(fā)起「星芒創(chuàng)想計劃」劇本征集活動
16
殷必彤當(dāng)選海信家電董事,海信空氣產(chǎn)業(yè)協(xié)同效應(yīng)初現(xiàn)
17
2025年《財富》世界500強:中國家電業(yè)美的最高,小米躍升百位
18
iPhone 16系列保值率分析:Max 成為蘋果最值得首發(fā)購入型號
19
官宣:國補繼續(xù),第三批資金690億已下達
20
2025年Q2中國大陸智能手機市場下滑4%,華為重奪市場第一
關(guān)于我們

微信掃一掃,加關(guān)注

商務(wù)合作
  • QQ:61149512