久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

17歲高三生領(lǐng)銜Kimi團(tuán)隊(duì)創(chuàng)新架構(gòu),馬斯克點(diǎn)贊,AI界迎來(lái)新星力量

   時(shí)間:2026-03-23 09:27 來(lái)源:快訊作者:胡穎

中國(guó)人工智能領(lǐng)域迎來(lái)突破性進(jìn)展——月之暗面(Moonshot AI)團(tuán)隊(duì)提出的"注意力殘差"(Attention Residuals)架構(gòu)引發(fā)全球關(guān)注。這項(xiàng)發(fā)表于GitHub的技術(shù)成果,通過(guò)重構(gòu)Transformer模型的信息流動(dòng)機(jī)制,使480億參數(shù)模型訓(xùn)練效率提升1.25倍,被特斯拉CEO埃隆·馬斯克評(píng)價(jià)為"令人印象深刻的工作"。該研究的核心創(chuàng)新在于引入動(dòng)態(tài)注意力機(jī)制,取代傳統(tǒng)殘差連接中固定的權(quán)重累加方式,使神經(jīng)網(wǎng)絡(luò)能夠根據(jù)輸入內(nèi)容選擇性聚合歷史層信息。

論文第一作者陳廣宇的履歷同樣引發(fā)震動(dòng)。這位來(lái)自深圳國(guó)際學(xué)校的17歲高三學(xué)生,在加入月之暗面僅5個(gè)月后,便以核心成員身份參與這項(xiàng)顛覆性研究。其社交媒體顯示,這位同時(shí)擁有美國(guó)計(jì)算機(jī)奧林匹克競(jìng)賽鉑金組經(jīng)歷和Kimi內(nèi)部黑客馬拉松冠軍的少年,目前擔(dān)任機(jī)器學(xué)習(xí)研究員,直接參與中國(guó)頂尖開(kāi)源大模型的核心架構(gòu)開(kāi)發(fā)。研究團(tuán)隊(duì)特別澄清,論文前三位作者貢獻(xiàn)相當(dāng),陳廣宇強(qiáng)調(diào)這是集體智慧的結(jié)晶。

這項(xiàng)被命名為AttnRes的新架構(gòu),通過(guò)引入輸入依賴的softmax注意力機(jī)制,實(shí)現(xiàn)了深度維度上的范式轉(zhuǎn)變。傳統(tǒng)模型采用線性累加方式處理各層輸出,而新方法允許每層動(dòng)態(tài)檢索歷史信息,形成類似自注意力的聚合模式。技術(shù)驗(yàn)證顯示,該架構(gòu)在Kimi Linear模型中表現(xiàn)優(yōu)異,特別在處理長(zhǎng)序列依賴時(shí)展現(xiàn)出顯著優(yōu)勢(shì)。行業(yè)分析師指出,這項(xiàng)突破可能重新定義大模型的基礎(chǔ)架構(gòu)標(biāo)準(zhǔn)。

月之暗面作為2023年成立的AI新銳,由清華大學(xué)校友楊植麟領(lǐng)銜創(chuàng)立,其開(kāi)發(fā)的Kimi大模型已在國(guó)際基準(zhǔn)測(cè)試中多次比肩GPT-4等頭部模型,被業(yè)界譽(yù)為中國(guó)"AI四小虎"之一。陳廣宇的雙重身份——在校學(xué)生與頂尖研究員——?jiǎng)?chuàng)造了AI領(lǐng)域的新紀(jì)錄。這位預(yù)計(jì)今年畢業(yè)的天才少年,此前已入選羅德信托全球未來(lái)領(lǐng)袖計(jì)劃,并在美國(guó)Tilde Research實(shí)驗(yàn)室完成AI研究項(xiàng)目,其成長(zhǎng)軌跡引發(fā)教育界對(duì)人才培養(yǎng)模式的重新思考。

研究團(tuán)隊(duì)公布的實(shí)驗(yàn)數(shù)據(jù)顯示,采用AttnRes架構(gòu)的模型在保持精度的同時(shí),顯著降低了計(jì)算資源消耗。這種效率提升在訓(xùn)練超大規(guī)模模型時(shí)尤為重要,可能為AI基礎(chǔ)設(shè)施建設(shè)提供新的優(yōu)化路徑。目前,相關(guān)代碼已在GitHub開(kāi)源,全球開(kāi)發(fā)者可自由訪問(wèn)技術(shù)細(xì)節(jié)。陳廣宇表示,團(tuán)隊(duì)正在探索該架構(gòu)在多模態(tài)學(xué)習(xí)等領(lǐng)域的應(yīng)用潛力,期待與全球研究者共同推進(jìn)技術(shù)邊界。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容