久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

月之暗面發(fā)布新論文:AttnRes模塊亮相,深度學(xué)習(xí)2.0時(shí)代或?qū)?lái)臨

   時(shí)間:2026-03-18 06:55 來(lái)源:快訊作者:楊凌霄

在深度學(xué)習(xí)領(lǐng)域,一場(chǎng)關(guān)于模型架構(gòu)創(chuàng)新的討論正愈演愈烈。近日,月之暗面團(tuán)隊(duì)發(fā)布了一項(xiàng)突破性研究,提出了一種名為注意力殘差(Attention Residuals,簡(jiǎn)稱AttnRes)的新型模型模塊,為深度學(xué)習(xí)模型的發(fā)展開辟了新路徑。這一成果不僅引發(fā)了學(xué)界和業(yè)界的廣泛關(guān)注,更得到了前OpenAI核心成員Jerry Tworek等知名學(xué)者的高度評(píng)價(jià)。

傳統(tǒng)Transformer架構(gòu)中,殘差連接是確保深層網(wǎng)絡(luò)穩(wěn)定訓(xùn)練的關(guān)鍵設(shè)計(jì)。每一層的輸出會(huì)直接與前一層相加,形成"等權(quán)累加"的機(jī)制。這種設(shè)計(jì)雖然解決了梯度消失問(wèn)題,但隨著模型層數(shù)增加,歷史層信息被簡(jiǎn)單疊加,導(dǎo)致深層網(wǎng)絡(luò)表達(dá)能力受限。月之暗面的研究團(tuán)隊(duì)敏銳地捕捉到了這一局限性,提出用動(dòng)態(tài)注意力機(jī)制替代固定殘差連接的創(chuàng)新方案。

AttnRes的核心突破在于引入了可學(xué)習(xí)的權(quán)重分配機(jī)制。每層網(wǎng)絡(luò)不再被動(dòng)接受前層輸出,而是通過(guò)注意力機(jī)制主動(dòng)"檢索"歷史層中最有價(jià)值的信息。這種設(shè)計(jì)使模型能夠根據(jù)當(dāng)前上下文動(dòng)態(tài)調(diào)整信息聚合方式,有效緩解了深層網(wǎng)絡(luò)中的信息稀釋問(wèn)題。研究團(tuán)隊(duì)進(jìn)一步提出的塊級(jí)注意力殘差(Block AttnRes)結(jié)構(gòu),通過(guò)將網(wǎng)絡(luò)劃分為多個(gè)計(jì)算塊,在保持靈活性的同時(shí)顯著降低了計(jì)算復(fù)雜度。

實(shí)驗(yàn)數(shù)據(jù)顯示,將AttnRes集成到480億參數(shù)的Kimi Linear架構(gòu)后,模型在1.4萬(wàn)億token的預(yù)訓(xùn)練中展現(xiàn)出顯著優(yōu)勢(shì)。在數(shù)學(xué)推理、科學(xué)問(wèn)答等復(fù)雜任務(wù)上,新模型性能提升超過(guò)20%,特別是在多步推理基準(zhǔn)測(cè)試GPQA-Diamond中表現(xiàn)尤為突出。更令人矚目的是,Block AttnRes在驗(yàn)證損失上達(dá)到1.692,相比基線模型1.714的成績(jī),相當(dāng)于提升了約25%的計(jì)算效率。

這項(xiàng)創(chuàng)新不僅體現(xiàn)在理論層面,更在工程實(shí)現(xiàn)上取得突破。研究團(tuán)隊(duì)針對(duì)Block AttnRes帶來(lái)的通信開銷問(wèn)題,開發(fā)了跨階段緩存機(jī)制,將訓(xùn)練階段的額外開銷控制在4%以內(nèi)。在推理階段,通過(guò)兩階段計(jì)算策略和序列分片技術(shù),使內(nèi)存延遲增加不超過(guò)2%,同時(shí)顯著降低了長(zhǎng)上下文場(chǎng)景下的顯存需求。這些優(yōu)化措施確保了新技術(shù)在實(shí)際應(yīng)用中的可行性。

據(jù)研究團(tuán)隊(duì)介紹,該成果是數(shù)十名研究員共同協(xié)作的結(jié)晶,其中Guangyu Chen、Yu Zhang和Jialin Su三位研究員貢獻(xiàn)最為突出。這項(xiàng)突破不僅展示了中國(guó)研究團(tuán)隊(duì)在AI基礎(chǔ)架構(gòu)領(lǐng)域的創(chuàng)新能力,也為全球深度學(xué)習(xí)社區(qū)提供了值得深入探索的新方向。隨著相關(guān)研究的持續(xù)推進(jìn),注意力機(jī)制在深度維度上的應(yīng)用有望成為下一代模型架構(gòu)的關(guān)鍵特征。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容