久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來

馬斯克等大佬點(diǎn)贊!Kimi 論文革新殘差連接,或開啟深度學(xué)習(xí)新篇

   時(shí)間:2026-03-18 21:40 來源:快訊作者:孫明

當(dāng)全球AI領(lǐng)域還在圍繞注意力機(jī)制、混合專家模型(MoE)等上層架構(gòu)展開激烈競(jìng)爭(zhēng)時(shí),一支中國(guó)團(tuán)隊(duì)將突破口對(duì)準(zhǔn)了深度學(xué)習(xí)最基礎(chǔ)的組件——?dú)埐钸B接。月之暗面Kimi團(tuán)隊(duì)發(fā)布的《Attention Residuals》技術(shù)報(bào)告,通過數(shù)學(xué)推導(dǎo)與工程創(chuàng)新,在保持算力不變的情況下,使模型訓(xùn)練效果達(dá)到傳統(tǒng)方法1.25倍算力投入的水準(zhǔn),這項(xiàng)成果不僅獲得馬斯克、OpenAI核心成員等硅谷頂尖人物的公開認(rèn)可,更被視為深度學(xué)習(xí)范式轉(zhuǎn)型的關(guān)鍵信號(hào)。

自2015年ResNet論文提出殘差連接以來,這項(xiàng)技術(shù)始終是現(xiàn)代神經(jīng)網(wǎng)絡(luò)的核心支柱。其通過在每層網(wǎng)絡(luò)中增設(shè)"直通通道",使梯度能夠繞過中間變換直接反向傳播,解決了深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失難題。然而這種"無差別等權(quán)疊加"的信息聚合方式,導(dǎo)致模型越深時(shí)底層貢獻(xiàn)越微弱,形成所謂的PreNorm稀釋效應(yīng)——已有研究顯示,部分大模型中超過30%的中間層對(duì)最終效果影響可忽略不計(jì)。

Kimi團(tuán)隊(duì)的突破源于對(duì)注意力機(jī)制的深度類比。他們發(fā)現(xiàn)殘差連接在深度方向的信息傳遞問題,與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在時(shí)間方向的信息遺忘具有相同的數(shù)學(xué)結(jié)構(gòu)。通過將注意力機(jī)制從處理序列的橫向維度,旋轉(zhuǎn)90度應(yīng)用于網(wǎng)絡(luò)深度的縱向維度,創(chuàng)新性地提出"深度方向注意力":每層網(wǎng)絡(luò)配備可學(xué)習(xí)的查詢向量,根據(jù)任務(wù)需求動(dòng)態(tài)選擇需要參考的前序?qū)有畔?,?shí)現(xiàn)信息聚合的精細(xì)化控制。

這項(xiàng)被命名為AttnRes的技術(shù)實(shí)現(xiàn)極具工程智慧。為避免全量連接帶來的內(nèi)存爆炸問題,團(tuán)隊(duì)開發(fā)出Block AttnRes架構(gòu),將網(wǎng)絡(luò)劃分為若干模塊,模塊內(nèi)部保留傳統(tǒng)殘差連接,模塊間采用注意力機(jī)制進(jìn)行信息交互。配合跨階段緩存機(jī)制與兩階段計(jì)算策略,在480億參數(shù)規(guī)模的實(shí)驗(yàn)中,訓(xùn)練開銷增幅控制在4%以內(nèi),推理延遲增加不超過2%,卻實(shí)現(xiàn)了驗(yàn)證損失的持續(xù)降低。

實(shí)驗(yàn)數(shù)據(jù)顯示,采用AttnRes的模型在15項(xiàng)主流基準(zhǔn)測(cè)試中全面持平或超越基線,尤其在博士級(jí)科學(xué)推理(GPQA-Diamond)任務(wù)中提升7.5%,數(shù)學(xué)解題(Math)與代碼生成(Humaneval)分別提升3.6%與3.1%??梢暬治鼋沂?,新架構(gòu)使各層梯度分布更均勻,既保持了局部信息傳遞的主導(dǎo)性,又形成了跨層的長(zhǎng)程依賴關(guān)系,這種特性使模型在參數(shù)規(guī)模擴(kuò)大時(shí)仍能保持性能增益。

這項(xiàng)突破引發(fā)的連鎖反應(yīng)正在顯現(xiàn)。在GTC 2026演講中,Kimi創(chuàng)始人楊植麟披露了系列底層技術(shù)創(chuàng)新:MuonClip優(yōu)化器將計(jì)算效率提升至AdamW的兩倍,Kimi Linear架構(gòu)實(shí)現(xiàn)超長(zhǎng)上下文5-6倍解碼加速,跨模態(tài)訓(xùn)練甚至提升了純文本任務(wù)的性能。這些進(jìn)展共同勾勒出"Token效率×長(zhǎng)上下文×智能體協(xié)作"的三維Scaling框架,標(biāo)志著深度學(xué)習(xí)進(jìn)入資源利用效率與系統(tǒng)復(fù)雜度協(xié)同提升的新階段。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容