久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

馬斯克點(diǎn)贊Kimi:十一年未變的深度學(xué)習(xí)基石組件迎來(lái)新突破

   時(shí)間:2026-03-17 12:59 來(lái)源:天脈網(wǎng)作者:楊凌霄

科技領(lǐng)域近日迎來(lái)一則備受矚目的消息:特斯拉與SpaceX創(chuàng)始人埃隆·馬斯克,在社交平臺(tái)X上對(duì)一家中國(guó)AI公司月之暗面的技術(shù)成果公開(kāi)點(diǎn)贊,稱其“做出了令人印象深刻的結(jié)果”。這一表態(tài)在AI圈引發(fā)廣泛關(guān)注,畢竟馬斯克向來(lái)以在AI領(lǐng)域觀點(diǎn)犀利、要求嚴(yán)苛著稱,此前沒(méi)少批評(píng)Anthropic和OpenAI,甚至曾直言Anthropic的圖標(biāo)設(shè)計(jì)不妥。

馬斯克此次點(diǎn)贊的并非模型,而是月之暗面團(tuán)隊(duì)提出的一種全新架構(gòu)改進(jìn)方式?,F(xiàn)代大語(yǔ)言模型,無(wú)論是GPT、Claude,還是國(guó)內(nèi)的豆包、DeepSeek,以及月之暗面自家的K2.5,底層架構(gòu)都基于Transformer。而Transformer能訓(xùn)練到幾十層甚至上百層不崩潰,得益于“殘差連接”機(jī)制。該機(jī)制由何愷明在2015年參與的ResNet論文提出,后被Transformer沿用。其原理是每一層網(wǎng)絡(luò)計(jì)算后,將輸出與輸入相加傳至下一層,如此梯度在反向傳播時(shí)可直達(dá)底層,避免因?qū)訑?shù)過(guò)深而消失。

然而,這種“加法”存在一定問(wèn)題。不同層輸出的信息在最終隱藏狀態(tài)中權(quán)重相同,隨著層數(shù)增加,早期層信息被稀釋,后面層需輸出更大數(shù)值才能產(chǎn)生影響,進(jìn)而加劇不穩(wěn)定性,這一現(xiàn)象被稱為“PreNorm稀釋”。月之暗面團(tuán)隊(duì)發(fā)現(xiàn),這一問(wèn)題與早年RNN面臨的困境有結(jié)構(gòu)上的對(duì)稱性。RNN在時(shí)間維度上做固定權(quán)重累加,長(zhǎng)距離依賴難以捕捉,Transformer用注意力機(jī)制替代其線性累加,解決了該問(wèn)題。但在深度維度上,同樣的問(wèn)題卻一直未得到解決。

月之暗面團(tuán)隊(duì)認(rèn)為,標(biāo)準(zhǔn)殘差連接本質(zhì)是“深度維度上的線性注意力”,他們計(jì)劃將其升級(jí)為“深度維度上的softmax注意力”,并提出了“理想版”方案——全注意力殘差。具體做法是給每一層賦予可學(xué)習(xí)的查詢向量,對(duì)之前所有層輸出做注意力計(jì)算,產(chǎn)生歸一化權(quán)重,當(dāng)前層輸入按此權(quán)重加權(quán)組合,不同token經(jīng)過(guò)同一層時(shí)可從不同歷史層提取信息。但這一方案在大規(guī)模訓(xùn)練時(shí)存在內(nèi)存和通信開(kāi)銷過(guò)大的問(wèn)題,因?yàn)樾枰鎯?chǔ)和傳遞所有層輸出。

為解決這一問(wèn)題,團(tuán)隊(duì)又提出塊注意力殘差方案。他們將所有層分成若干塊,塊內(nèi)用傳統(tǒng)殘差連接求和,塊間用注意力機(jī)制選擇性聚合。這樣只需存儲(chǔ)和傳輸每個(gè)塊的匯總表示,內(nèi)存占用大幅降低。在此基礎(chǔ)上,團(tuán)隊(duì)還進(jìn)行了一系列工程優(yōu)化,如跨階段緩存消除流水線并行中的冗余傳輸,兩階段推理策略分?jǐn)偪鐗K注意力計(jì)算。最終,注意力殘差作為標(biāo)準(zhǔn)殘差連接的替代品,訓(xùn)練額外開(kāi)銷小,推理延遲增加不到2%。

團(tuán)隊(duì)通過(guò)兩個(gè)實(shí)驗(yàn)驗(yàn)證這一改進(jìn)的效果。在scaling law實(shí)驗(yàn)中,結(jié)果顯示注意力在所有計(jì)算預(yù)算下都優(yōu)于基線,效果相當(dāng)于用1.25倍計(jì)算量訓(xùn)練出的基線模型。在實(shí)戰(zhàn)驗(yàn)證中,團(tuán)隊(duì)用480億參數(shù)的大模型,用超一萬(wàn)億個(gè)詞的數(shù)據(jù)進(jìn)行完整預(yù)訓(xùn)練,在科學(xué)問(wèn)答、數(shù)學(xué)推理、代碼生成、綜合知識(shí)等測(cè)試中,加了塊注意力殘差的版本全面超越未加的版本。訓(xùn)練動(dòng)態(tài)分析也表明,塊注意力殘差緩解了PreNorm稀釋問(wèn)題,各層輸出幅度穩(wěn)定,梯度分布均勻。

論文還通過(guò)統(tǒng)一的結(jié)構(gòu)化矩陣分析證明,標(biāo)準(zhǔn)殘差連接及其變體本質(zhì)都是深度維度上線性注意力的特例。自2015年ResNet以來(lái),殘差連接板塊無(wú)實(shí)質(zhì)性變化,而月之暗面的這篇論文是首個(gè)既有理論依據(jù),又能大規(guī)模實(shí)際部署且低成本的方案,這也是馬斯克點(diǎn)贊的原因。

月之暗面目前正處于上市前的關(guān)鍵階段,融資進(jìn)展順利。2025年12月底完成5億美元C輪融資,投后估值43億美元;兩個(gè)月后完成超7億美元C+輪融資,投后估值突破100億美元;3月中最新投前估值上升至180億美元,新一輪10億美元融資正在推進(jìn),3個(gè)月內(nèi)估值增長(zhǎng)超4倍。其Kimi K2.5模型發(fā)布不到一個(gè)月,累計(jì)收入就超過(guò)2025年全年總收入,個(gè)人訂閱用戶支付訂單數(shù)在1月環(huán)比增長(zhǎng)8280%,2月又環(huán)比增長(zhǎng)123.8%,進(jìn)入Stripe全球榜單前十。

不過(guò),月之暗面也面臨一些爭(zhēng)議。幾天前,OpenClaw創(chuàng)始人彼得·斯坦伯格公開(kāi)質(zhì)疑月之暗面的Kimi Claw產(chǎn)品。月之暗面此前推出OpenClaw的云端一鍵部署服務(wù)Kimi Claw,其邏輯與OpenClaw“本地優(yōu)先”的設(shè)計(jì)理念相悖。OpenClaw的agent運(yùn)行在用戶設(shè)備上,數(shù)據(jù)不經(jīng)過(guò)第三方,大模型僅提供操作指令。而Kimi Claw將數(shù)據(jù)搬到云端服務(wù)器,在安全和隱私層面風(fēng)險(xiǎn)不同。斯坦伯格的質(zhì)疑在社區(qū)產(chǎn)生實(shí)際影響,最初詢問(wèn)的用戶表示鑒于安全性問(wèn)題,暫時(shí)不會(huì)使用該產(chǎn)品。

此時(shí)馬斯克的點(diǎn)贊恰逢其時(shí),在輿論場(chǎng)上,OpenClaw創(chuàng)始人的質(zhì)疑與馬斯克的認(rèn)可形成鮮明對(duì)比。對(duì)于正在融資的月之暗面而言,馬斯克的認(rèn)可無(wú)疑極具分量,盡管不能過(guò)度解讀其一條推文,但這一表態(tài)還是讓更多人開(kāi)始關(guān)注這篇論文,一個(gè)十一年未被觸動(dòng)的組件被重新審視,后續(xù)發(fā)展值得期待。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容