久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

Mamba團隊新突破:無預(yù)訓(xùn)練僅76K參數(shù)模型躋身ARC-AGI前三

   時間:2025-12-17 01:07 來源:快訊作者:任飛揚

在人工智能研究領(lǐng)域,一項名為CompressARC的新成果引發(fā)了廣泛關(guān)注。這項由Mamba團隊核心成員Albert Gu指導(dǎo)、CMU博士生Isaac Liao主導(dǎo)的研究,通過顛覆傳統(tǒng)訓(xùn)練范式,在通用智能測試基準(zhǔn)ARC-AGI-1上取得突破性進(jìn)展——僅用76K參數(shù)的未預(yù)訓(xùn)練模型,便在評估集中解決了20%的謎題。

與傳統(tǒng)依賴海量數(shù)據(jù)預(yù)訓(xùn)練的模型不同,CompressARC開創(chuàng)性地采用"最小描述長度"(MDL)理論作為核心框架。該理論源于數(shù)學(xué)與計算機科學(xué)交叉領(lǐng)域,其核心思想認(rèn)為:揭示現(xiàn)象本質(zhì)規(guī)律的程序,往往具有最簡潔的代碼形式。研究團隊將這一哲學(xué)轉(zhuǎn)化為技術(shù)實踐——通過構(gòu)建能生成目標(biāo)謎題的最短計算機程序,使模型在推理階段自動學(xué)習(xí)隱含規(guī)則,而非被動記憶訓(xùn)練數(shù)據(jù)。

實驗設(shè)計極具挑戰(zhàn)性:模型僅能接觸每個謎題的2個示例輸入/輸出對及1個測試輸入,完全不依賴外部訓(xùn)練集。這種"單樣本學(xué)習(xí)"模式,迫使系統(tǒng)必須從有限信息中抽象出通用規(guī)則。為解決程序搜索空間爆炸的難題,研究團隊設(shè)計了包含固定運算流程的模板程序,將問題轉(zhuǎn)化為尋找最優(yōu)種子值和神經(jīng)網(wǎng)絡(luò)權(quán)重的優(yōu)化過程。

技術(shù)實現(xiàn)層面,模型架構(gòu)融合了多項創(chuàng)新:通過等變設(shè)計內(nèi)置對旋轉(zhuǎn)、翻轉(zhuǎn)等幾何變換的天然理解;采用多張量數(shù)據(jù)結(jié)構(gòu)存儲不同粒度的空間關(guān)系;核心運算模塊包含專門設(shè)計的幾何操作(如單像素平移)和拓?fù)洳僮鳎ㄈ缋鄯e最大值),這些無參數(shù)操作直接編碼了對抽象推理任務(wù)的先驗知識。整個網(wǎng)絡(luò)僅76K參數(shù),其中90%用于通道維度的線性投影,核心邏輯通過硬編碼操作實現(xiàn)。

在優(yōu)化算法上,研究團隊借鑒變分自編碼器原理,將程序長度最小化轉(zhuǎn)化為可微分問題。通過同時最小化KL散度(控制隨機噪聲z的信息量)和交叉熵(衡量輸出與真實謎題的匹配度),系統(tǒng)能在梯度下降過程中自動平衡規(guī)則復(fù)雜度與重構(gòu)精度。這種設(shè)計使模型能用2000個推理步驟(約20分鐘/謎題)完成訓(xùn)練,在評估集中達(dá)到20%的準(zhǔn)確率,訓(xùn)練集準(zhǔn)確率更高達(dá)34.75%。

對比現(xiàn)有方法,該成果具有顯著差異:基于互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的o3模型雖在評估中取得88%的準(zhǔn)確率,但其參數(shù)規(guī)模達(dá)數(shù)十億級;同類未預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的最高成績?yōu)?0.3%,但需接觸整個ARC-AGI訓(xùn)練集。CompressARC的突破在于證明:通過壓縮原理引導(dǎo)的智能涌現(xiàn),可能成為通往通用人工智能的獨立路徑。

這項研究的核心基準(zhǔn)ARC-AGI-1由GoogleAI研究員Fran?ois Chollet于2019年提出,旨在評估AI處理未明確訓(xùn)練過的新問題的能力。該測試包含80個手工設(shè)計的抽象推理謎題,涵蓋對象操作、模式識別、空間變換等認(rèn)知任務(wù),被學(xué)界視為衡量通用智能的核心標(biāo)尺。CompressARC的成果,為破解這一挑戰(zhàn)提供了全新視角。

研究團隊負(fù)責(zé)人Isaac Liao的學(xué)術(shù)背景同樣引人注目:這位MIT計算機科學(xué)與物理學(xué)雙學(xué)位獲得者,在CMU攻讀博士期間專注于最小描述長度理論、變分推斷等前沿領(lǐng)域。其導(dǎo)師Albert Gu作為Mamba架構(gòu)的提出者,此次合作再次驗證了跨學(xué)科研究在推動AI范式變革中的關(guān)鍵作用。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容