久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

國(guó)產(chǎn)算力突破“卡脖子”難關(guān):從萬(wàn)卡到十萬(wàn)卡的三重挑戰(zhàn)與破局之路

   時(shí)間:2026-03-21 10:16 來(lái)源:快訊作者:楊凌霄

近日,中科曙光在鄭州宣布其全自研的scaleFabric高速網(wǎng)絡(luò)產(chǎn)品正式發(fā)布,并成功在國(guó)家超算互聯(lián)網(wǎng)核心節(jié)點(diǎn)部署了全國(guó)產(chǎn)化的萬(wàn)卡級(jí)智算集群。這一突破標(biāo)志著國(guó)產(chǎn)算力基礎(chǔ)設(shè)施在關(guān)鍵技術(shù)領(lǐng)域邁出了重要一步,為應(yīng)對(duì)國(guó)際競(jìng)爭(zhēng)提供了新的支撐。

當(dāng)前,國(guó)產(chǎn)算力集群正面臨從萬(wàn)卡向十萬(wàn)卡規(guī)模跨越的挑戰(zhàn)。中國(guó)科學(xué)院計(jì)算技術(shù)研究所專家王展指出,中科曙光此次實(shí)現(xiàn)的萬(wàn)卡集群是全國(guó)首個(gè)全棧國(guó)產(chǎn)化方案,涵蓋CPU、GPU、交換機(jī)芯片及網(wǎng)卡芯片。相比之下,國(guó)際巨頭英偉達(dá)已通過(guò)CUDA生態(tài)和InfiniBand(IB)網(wǎng)絡(luò)技術(shù)構(gòu)建了十萬(wàn)卡級(jí)集群,并在持續(xù)擴(kuò)大規(guī)模。這種差距不僅體現(xiàn)在數(shù)字上,更反映了技術(shù)、生態(tài)和系統(tǒng)工程的全面挑戰(zhàn)。

長(zhǎng)期以來(lái),IB網(wǎng)絡(luò)技術(shù)被英偉達(dá)壟斷。該公司通過(guò)收購(gòu)邁絡(luò)思掌握了核心技術(shù),形成難以突破的技術(shù)壁壘,制約了國(guó)內(nèi)算力產(chǎn)業(yè)向超大規(guī)模發(fā)展。中科曙光高級(jí)副總裁李斌表示,從萬(wàn)卡到十萬(wàn)卡的核心挑戰(zhàn)不在于計(jì)算節(jié)點(diǎn)本身,而在于互聯(lián)系統(tǒng)。當(dāng)集群規(guī)模呈數(shù)量級(jí)增長(zhǎng)時(shí),計(jì)算效率的可擴(kuò)展性和超高可靠性成為關(guān)鍵難題。

據(jù)行業(yè)調(diào)查,到2025年底全球智算基礎(chǔ)設(shè)施投資規(guī)模將持續(xù)擴(kuò)大,支撐下一代萬(wàn)億參數(shù)大模型需要八萬(wàn)到十萬(wàn)卡規(guī)模的集群。奇異摩爾聯(lián)合創(chuàng)始人??|從技術(shù)角度分析,超大規(guī)模集群對(duì)交換機(jī)帶寬和存儲(chǔ)容量提出極高要求,同時(shí)端側(cè)網(wǎng)卡和協(xié)議層面面臨更大挑戰(zhàn)。傳統(tǒng)基于IB或RoCEv2的協(xié)議在萬(wàn)卡以上規(guī)模會(huì)變?yōu)?有損網(wǎng)絡(luò)",引發(fā)丟包處理、擁塞管理等連鎖問(wèn)題。

北京科技大學(xué)儲(chǔ)根深教授的實(shí)踐印證了軟硬件協(xié)同的重要性。其團(tuán)隊(duì)通過(guò)GPU顯存直接互聯(lián)技術(shù)優(yōu)化通信路徑,使萬(wàn)卡規(guī)模下某些軟件的通信開(kāi)銷從50%降至10%。這表明硬件能力必須通過(guò)軟件棧深度適配才能轉(zhuǎn)化為實(shí)際性能。李斌強(qiáng)調(diào),超大規(guī)模集群需要網(wǎng)絡(luò)側(cè)、計(jì)算側(cè)、供電系統(tǒng)及上層控制系統(tǒng)的整體協(xié)同,并與應(yīng)用算法和分布式訓(xùn)練流程深度耦合。

實(shí)現(xiàn)十萬(wàn)卡集群面臨三大核心挑戰(zhàn):大規(guī)模可靠性、與算法流程的深度協(xié)同、系統(tǒng)級(jí)調(diào)優(yōu)門檻。曙光信息產(chǎn)業(yè)副總裁李柳指出,可靠性是十萬(wàn)卡集群的生命線,故障恢復(fù)時(shí)間隨規(guī)模擴(kuò)大呈指數(shù)級(jí)增長(zhǎng)。scaleFabric采用基于信用的流控機(jī)制和鏈路故障快速恢復(fù)技術(shù),將恢復(fù)時(shí)間降至毫秒級(jí),并通過(guò)長(zhǎng)期穩(wěn)定性測(cè)試驗(yàn)證其可靠性。

在技術(shù)路線選擇上,國(guó)產(chǎn)算力面臨IB與以太網(wǎng)RoCE的分野。中科曙光選擇兼容IB生態(tài)的路線,認(rèn)為其無(wú)損網(wǎng)絡(luò)特性對(duì)RDMA性能至關(guān)重要。但部分行業(yè)專家指出,全球多數(shù)智算中心仍基于RoCE技術(shù),且互聯(lián)網(wǎng)企業(yè)已形成成熟的以太網(wǎng)架構(gòu)體系。這種分歧源于用戶背景差異:超算從業(yè)者傾向IB體系,而智算領(lǐng)域以互聯(lián)網(wǎng)企業(yè)為主,更熟悉以太網(wǎng)。

這種技術(shù)路線分歧帶來(lái)市場(chǎng)雙軌并存的格局。李斌表示,中科曙光支持國(guó)內(nèi)不同算力芯片的適配,同時(shí)需應(yīng)對(duì)增量部署的兼容性挑戰(zhàn)。王展指出,全新國(guó)產(chǎn)集群可實(shí)現(xiàn)應(yīng)用無(wú)縫遷移,但若用戶想保留原有英偉達(dá)IB交換機(jī),可能因私有協(xié)議限制導(dǎo)致通信障礙。這凸顯了掌握自主核心技術(shù)的必要性。

國(guó)產(chǎn)算力正探索差異化發(fā)展路徑。??|認(rèn)為,美國(guó)采取"暴力堆算力"策略,而中國(guó)通過(guò)提升算力效率、降低成本推動(dòng)AI普惠。在軟件層面,國(guó)產(chǎn)廠商通過(guò)精細(xì)化優(yōu)化挖掘硬件潛力;在架構(gòu)層面,存算一體、重構(gòu)計(jì)算等新型架構(gòu)為突破海外限制提供新可能。這種發(fā)展模式依托電力優(yōu)勢(shì)和互聯(lián)技術(shù)追趕,有望實(shí)現(xiàn)"以系統(tǒng)優(yōu)勢(shì)彌補(bǔ)單點(diǎn)差異"的高質(zhì)量發(fā)展。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容