滾動(dòng)資訊

當(dāng)前位置：發(fā)現(xiàn)者網(wǎng) > 家電行業(yè) > 正文內(nèi)容

馬斯克等大佬點(diǎn)贊！Kimi 論文革新殘差連接，或開啟深度學(xué)習(xí)新篇

時(shí)間：2026-03-18 21:40 來源：快訊作者：孫明

當(dāng)全球AI領(lǐng)域還在圍繞注意力機(jī)制、混合專家模型（MoE）等上層架構(gòu)展開激烈競(jìng)爭(zhēng)時(shí)，一支中國(guó)團(tuán)隊(duì)將突破口對(duì)準(zhǔn)了深度學(xué)習(xí)最基礎(chǔ)的組件——?dú)埐钸B接。月之暗面Kimi團(tuán)隊(duì)發(fā)布的《Attention Residuals》技術(shù)報(bào)告，通過數(shù)學(xué)推導(dǎo)與工程創(chuàng)新，在保持算力不變的情況下，使模型訓(xùn)練效果達(dá)到傳統(tǒng)方法1.25倍算力投入的水準(zhǔn)，這項(xiàng)成果不僅獲得馬斯克、OpenAI核心成員等硅谷頂尖人物的公開認(rèn)可，更被視為深度學(xué)習(xí)范式轉(zhuǎn)型的關(guān)鍵信號(hào)。

自2015年ResNet論文提出殘差連接以來，這項(xiàng)技術(shù)始終是現(xiàn)代神經(jīng)網(wǎng)絡(luò)的核心支柱。其通過在每層網(wǎng)絡(luò)中增設(shè)"直通通道"，使梯度能夠繞過中間變換直接反向傳播，解決了深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失難題。然而這種"無差別等權(quán)疊加"的信息聚合方式，導(dǎo)致模型越深時(shí)底層貢獻(xiàn)越微弱，形成所謂的PreNorm稀釋效應(yīng)——已有研究顯示，部分大模型中超過30%的中間層對(duì)最終效果影響可忽略不計(jì)。

Kimi團(tuán)隊(duì)的突破源于對(duì)注意力機(jī)制的深度類比。他們發(fā)現(xiàn)殘差連接在深度方向的信息傳遞問題，與循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在時(shí)間方向的信息遺忘具有相同的數(shù)學(xué)結(jié)構(gòu)。通過將注意力機(jī)制從處理序列的橫向維度，旋轉(zhuǎn)90度應(yīng)用于網(wǎng)絡(luò)深度的縱向維度，創(chuàng)新性地提出"深度方向注意力"：每層網(wǎng)絡(luò)配備可學(xué)習(xí)的查詢向量，根據(jù)任務(wù)需求動(dòng)態(tài)選擇需要參考的前序?qū)有畔?，?shí)現(xiàn)信息聚合的精細(xì)化控制。

這項(xiàng)被命名為AttnRes的技術(shù)實(shí)現(xiàn)極具工程智慧。為避免全量連接帶來的內(nèi)存爆炸問題，團(tuán)隊(duì)開發(fā)出Block AttnRes架構(gòu)，將網(wǎng)絡(luò)劃分為若干模塊，模塊內(nèi)部保留傳統(tǒng)殘差連接，模塊間采用注意力機(jī)制進(jìn)行信息交互。配合跨階段緩存機(jī)制與兩階段計(jì)算策略，在480億參數(shù)規(guī)模的實(shí)驗(yàn)中，訓(xùn)練開銷增幅控制在4%以內(nèi)，推理延遲增加不超過2%，卻實(shí)現(xiàn)了驗(yàn)證損失的持續(xù)降低。

實(shí)驗(yàn)數(shù)據(jù)顯示，采用AttnRes的模型在15項(xiàng)主流基準(zhǔn)測(cè)試中全面持平或超越基線，尤其在博士級(jí)科學(xué)推理（GPQA-Diamond）任務(wù)中提升7.5%，數(shù)學(xué)解題（Math）與代碼生成（Humaneval）分別提升3.6%與3.1%?？梢暬治鼋沂?，新架構(gòu)使各層梯度分布更均勻，既保持了局部信息傳遞的主導(dǎo)性，又形成了跨層的長(zhǎng)程依賴關(guān)系，這種特性使模型在參數(shù)規(guī)模擴(kuò)大時(shí)仍能保持性能增益。

這項(xiàng)突破引發(fā)的連鎖反應(yīng)正在顯現(xiàn)。在GTC 2026演講中，Kimi創(chuàng)始人楊植麟披露了系列底層技術(shù)創(chuàng)新：MuonClip優(yōu)化器將計(jì)算效率提升至AdamW的兩倍，Kimi Linear架構(gòu)實(shí)現(xiàn)超長(zhǎng)上下文5-6倍解碼加速，跨模態(tài)訓(xùn)練甚至提升了純文本任務(wù)的性能。這些進(jìn)展共同勾勒出"Token效率×長(zhǎng)上下文×智能體協(xié)作"的三維Scaling框架，標(biāo)志著深度學(xué)習(xí)進(jìn)入資源利用效率與系統(tǒng)復(fù)雜度協(xié)同提升的新階段。

03-18

小米新一代SU7明晚上市！小訂客戶超十幾萬，門店擴(kuò)容限流，雷軍：物超所值

03-18

王騰攜手梅耶·馬斯克與前OPPO產(chǎn)品經(jīng)理Monica 共赴喜臨門智能睡眠新品盛宴

03-18

長(zhǎng)飛光纖第三大股東長(zhǎng)江通信計(jì)劃2026年減持不超0.12%股份

03-18

瑞眾保險(xiǎn)衢州中支：應(yīng)急演練筑防線提升消費(fèi)投訴處理能力

03-18

春日限定美味來襲！江蘇啟東紫菜豐收山東菏澤春菜嘗鮮正當(dāng)時(shí)

03-18

龍虎榜風(fēng)云：云賽智聯(lián)獲游資青睞紅寶麗遭深股通與機(jī)構(gòu)減持

03-18

情緒消費(fèi)浪潮下：IP聯(lián)名與自創(chuàng)IP如何解鎖商業(yè)增長(zhǎng)新密碼？

03-18

昇興股份2025年業(yè)績(jī)：凈利潤(rùn)降27% 董事長(zhǎng)降薪職工人均薪酬15萬

03-18

2026年中國(guó)機(jī)場(chǎng)建設(shè)行業(yè)全景透視：重點(diǎn)城市布局與未來格局展望

03-18

萬國(guó)數(shù)據(jù)-SW午后漲超16% 2025年業(yè)績(jī)亮眼實(shí)現(xiàn)扭虧為盈

03-18

外資巨頭紛紛加倉(cāng) 國(guó)產(chǎn)存儲(chǔ)芯片企業(yè)乘AI東風(fēng)迎發(fā)展新機(jī)遇

03-18

長(zhǎng)江中游城市群躋身中國(guó)第五極！武漢領(lǐng)銜，光谷四家AI企業(yè)市值破4000億

03-18

人均40元“平替薩莉亞”爆火，濟(jì)南莫利塞如何用60家店攪動(dòng)平價(jià)西餐市場(chǎng)？

03-18

AI智能空調(diào)中國(guó)銷量第一奧克斯以“好空氣AI調(diào)”煥新定位

關(guān)于智能空調(diào)的想象，行業(yè)長(zhǎng)久以來都只是卷哪家APP界面更花哨，比誰能多接入一個(gè)生態(tài)平臺(tái)，卻少有人跳出固有思維反問：智能的本質(zhì)，就是讓機(jī)器等指令嗎？2026年3月12日，在AWE這個(gè)全球消費(fèi)電子科技盛宴上，奧克斯家

03-18

點(diǎn)擊查看更多 +

全站最新

深圳高三生陳廣宇成Kimi重磅論文一作獲馬斯克點(diǎn)贊引全球AI圈關(guān)注

小米輔助駕駛?cè)律?jí)：XLA認(rèn)知大模型加持，2年追趕同行十年進(jìn)程

馬斯克盛贊！Kimi 論文革新殘差連接深度學(xué)習(xí)底層范式迎新變

雷軍官宣：新一代小米SU7明日發(fā)布，全系內(nèi)置ETC且免費(fèi)激活

蘋果50周年慶典全球巡禮：庫(kù)克現(xiàn)身成都，致敬中國(guó)制造與創(chuàng)新未來

庫(kù)克親口否認(rèn)卸任傳聞：熱愛工作，直言無法想象沒有蘋果的生活

熱門內(nèi)容

本欄最新

雷軍分享小米HAD輔助駕駛新進(jìn)展：SU7全系搭載，打通兩大任務(wù)迎升級(jí)

雷軍宣布小米HAD輔助駕駛升級(jí)：SU7標(biāo)配XLA模型，智駕技術(shù)獲關(guān)鍵突破

雷軍“不想背刺老用戶”引共鳴，真誠(chéng)態(tài)度獲網(wǎng)友力贊與行業(yè)認(rèn)可

河北鼎瓷科技啟動(dòng)IPO輔導(dǎo)備案：金華江卸任總經(jīng)理，錢旭鋒接棒掌舵

雷軍官宣！小米“蛟龍底盤”亮相，蘇炳添代言SU7即將上市

馬斯克放話：xAI 2026年底追平頭部 2029年或成AI領(lǐng)域領(lǐng)跑者

發(fā)現(xiàn)者網(wǎng) - 深度洞察行業(yè)動(dòng)態(tài) 引領(lǐng)市場(chǎng)先鋒平臺(tái) - 發(fā)現(xiàn)商業(yè)評(píng)論旗下網(wǎng)站北京·通州天津·濱海山東·濟(jì)南
發(fā)現(xiàn)者網(wǎng)（www.ruruan.com.cn）所有稿件免費(fèi)開放轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)務(wù)必保留版權(quán)。
合作微信：netspread（注明:發(fā)現(xiàn)者網(wǎng)）
Copyright ? FXW 2012-2023 www.ruruan.com.cn All rights reserved. 魯ICP備2022032383號(hào)-3 魯公網(wǎng)安備37010202700500號(hào)

馬斯克等大佬點(diǎn)贊！Kimi 論文革新殘差連接，或開啟深度學(xué)習(xí)新篇

馬斯克等大佬點(diǎn)贊！Kimi 論文革新殘差連接，或開啟深度學(xué)習(xí)新篇