久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

萬(wàn)卡時(shí)代算力新局:網(wǎng)絡(luò)成關(guān)鍵,國(guó)產(chǎn)IB方案崛起引領(lǐng)新趨勢(shì)

   時(shí)間:2026-03-12 23:10 來(lái)源:快訊作者:蘇婉清

在人工智能大模型訓(xùn)練的賽道上,隨著萬(wàn)卡、十萬(wàn)卡集群成為新常態(tài),網(wǎng)絡(luò)性能正從幕后走向臺(tái)前,成為決定訓(xùn)練效率的關(guān)鍵變量。當(dāng)GPT-4突破萬(wàn)億參數(shù)、Llama 3訓(xùn)練集群規(guī)模達(dá)數(shù)萬(wàn)卡時(shí),通信耗時(shí)對(duì)算力利用率的侵蝕問(wèn)題愈發(fā)凸顯——據(jù)行業(yè)統(tǒng)計(jì),大規(guī)模集群訓(xùn)練中通信時(shí)間占比普遍超過(guò)30%,且集群規(guī)模每擴(kuò)大一個(gè)數(shù)量級(jí),這一比例就呈指數(shù)級(jí)上升。

這場(chǎng)變革中,曾被視為"經(jīng)濟(jì)之選"的RoCE(RDMA over Converged Ethernet)網(wǎng)絡(luò)正遭遇前所未有的挑戰(zhàn)。其基于優(yōu)先級(jí)的流控機(jī)制(PFC)在應(yīng)對(duì)超大規(guī)模集群時(shí)暴露出致命缺陷:當(dāng)接收端緩沖區(qū)壓力達(dá)到閾值時(shí),PFC會(huì)向上游發(fā)送暫停幀,這種"事后補(bǔ)救"模式不僅無(wú)法避免丟包風(fēng)險(xiǎn),更會(huì)在多級(jí)網(wǎng)絡(luò)中引發(fā)"暫停幀風(fēng)暴"。某互聯(lián)網(wǎng)巨頭內(nèi)部數(shù)據(jù)顯示,其萬(wàn)卡級(jí)RoCE集群每月因PFC風(fēng)暴導(dǎo)致的訓(xùn)練中斷達(dá)3-5次,每次恢復(fù)耗時(shí)數(shù)分鐘至半小時(shí)不等。

運(yùn)維復(fù)雜度成為壓垮RoCE的最后一根稻草。為抑制PFC風(fēng)暴,網(wǎng)絡(luò)團(tuán)隊(duì)需持續(xù)調(diào)整"水線"參數(shù),但這項(xiàng)工作猶如在高壓線上行走——參數(shù)調(diào)高會(huì)導(dǎo)致降速不及時(shí)引發(fā)丟包,調(diào)低則造成帶寬浪費(fèi)。某智算中心負(fù)責(zé)人透露:"我們組建了10人專項(xiàng)團(tuán)隊(duì),每天花費(fèi)4小時(shí)進(jìn)行參數(shù)調(diào)優(yōu),這對(duì)大多數(shù)用戶而言根本不可行。"

與之形成鮮明對(duì)比的是,原生RDMA架構(gòu)的InfiniBand(IB)網(wǎng)絡(luò)展現(xiàn)出獨(dú)特優(yōu)勢(shì)。其基于信用的流控機(jī)制要求發(fā)送端在傳輸前必須確認(rèn)接收端緩沖區(qū)空間,這種"先確認(rèn)后發(fā)送"的機(jī)制從根源上杜絕了丟包可能。更關(guān)鍵的是,IB的集中式管理架構(gòu)可實(shí)現(xiàn)全網(wǎng)路徑規(guī)劃,徹底消除分布式管理帶來(lái)的死鎖風(fēng)險(xiǎn)。在鏈路故障恢復(fù)方面,IB通過(guò)快速容錯(cuò)路由技術(shù)將恢復(fù)時(shí)間壓縮至毫秒級(jí),而RoCE通常需要數(shù)秒,這在大規(guī)模集群中意味著數(shù)十分鐘的算力浪費(fèi)。

成本賬本正在發(fā)生逆轉(zhuǎn)。雖然IB硬件采購(gòu)成本仍高于RoCE,但萬(wàn)卡級(jí)集群的運(yùn)維成本已呈現(xiàn)此消彼長(zhǎng)態(tài)勢(shì)。某服務(wù)商測(cè)算顯示,RoCE集群的專職團(tuán)隊(duì)人力成本、算力閑置成本、故障排查成本綜合計(jì)算后,已接近IB方案的硬件差價(jià)。更值得關(guān)注的是組網(wǎng)效率差異:新一代國(guó)產(chǎn)IB方案在單子網(wǎng)支持超11萬(wàn)卡,較傳統(tǒng)方案提升133%,這意味著更少的交換機(jī)層級(jí)、更低的光模塊功耗和成本。

市場(chǎng)數(shù)據(jù)印證著這種轉(zhuǎn)變。Dell'Oro Group報(bào)告顯示,在AI后端網(wǎng)絡(luò)市場(chǎng),InfiniBand長(zhǎng)期占據(jù)主導(dǎo)地位。某網(wǎng)絡(luò)設(shè)備廠商銷售總監(jiān)觀察到:"去年客戶還在糾結(jié)RoCE能否滿足需求,今年問(wèn)得最多的是萬(wàn)卡以上集群的穩(wěn)定性保障。"這種轉(zhuǎn)變?cè)诖竽P吐涞仉A段尤為明顯——當(dāng)訓(xùn)練任務(wù)周期延長(zhǎng)至數(shù)十天,一次網(wǎng)絡(luò)抖動(dòng)造成的損失就可能覆蓋IB的硬件溢價(jià)。

國(guó)產(chǎn)化突破為這場(chǎng)變革注入新變量。中科曙光推出的scaleFabric原生無(wú)損RDMA網(wǎng)絡(luò)系統(tǒng),實(shí)現(xiàn)了從112G SerDes IP到軟件平臺(tái)的全棧自研。該系統(tǒng)端到端時(shí)延低于1微秒,轉(zhuǎn)發(fā)時(shí)延260納秒,性能指標(biāo)直追國(guó)際頂尖的NVIDIA NDR方案。更關(guān)鍵的是,其已在國(guó)家超算互聯(lián)網(wǎng)鄭州核心節(jié)點(diǎn)完成3萬(wàn)卡商用部署,累計(jì)運(yùn)行超10萬(wàn)項(xiàng)作業(yè),驗(yàn)證了大規(guī)模真實(shí)負(fù)載下的穩(wěn)定性。

中國(guó)工程院院士鄔賀銓指出,智算集群規(guī)?;渴饘?duì)網(wǎng)絡(luò)提出"超低延遲、超高帶寬、全程無(wú)損"的嚴(yán)苛要求,RDMA高速網(wǎng)絡(luò)已成為算力集群的"神經(jīng)中樞"。隨著十萬(wàn)卡級(jí)集群成為新基建標(biāo)配,網(wǎng)絡(luò)技術(shù)路線的選擇將超越簡(jiǎn)單的成本計(jì)算,真正回歸到"能否讓集群高效運(yùn)行"的本質(zhì)需求。在這場(chǎng)算力競(jìng)賽中,網(wǎng)絡(luò)性能正在重新定義游戲規(guī)則。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容