久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

外圍推理編排成關(guān)鍵!Poetiq系統(tǒng)助力GPT-5.2準(zhǔn)確率創(chuàng)新高

   時(shí)間:2025-12-25 17:50 來源:快訊作者:馮璃月

人工智能領(lǐng)域近期迎來一項(xiàng)突破性進(jìn)展:一家名為Poetiq的初創(chuàng)公司通過其開發(fā)的元系統(tǒng)(meta-system),在不改動基礎(chǔ)大模型的前提下,顯著提升了AI在復(fù)雜推理任務(wù)中的表現(xiàn)。實(shí)驗(yàn)數(shù)據(jù)顯示,該系統(tǒng)使GPT-5.2 X-High在權(quán)威測試集ARC-AGI-2上的成績達(dá)到75%,較此前最優(yōu)模型提升約15%,同時(shí)將單題處理成本控制在8美元以內(nèi)。

這項(xiàng)成果的核心在于Poetiq構(gòu)建的迭代式推理框架。與傳統(tǒng)AI系統(tǒng)直接生成答案不同,該框架通過多輪交互實(shí)現(xiàn)自我優(yōu)化:系統(tǒng)首先生成初步解決方案,隨后根據(jù)反饋持續(xù)改進(jìn),直至形成最終答案。這種機(jī)制特別引入了自我審計(jì)功能,能夠自動判斷何時(shí)已獲得足夠信息,從而及時(shí)終止計(jì)算過程。實(shí)驗(yàn)表明,這種設(shè)計(jì)不僅提升了準(zhǔn)確性,更有效降低了資源消耗——X-High版本之所以成本更低,正是因其能更快收斂到正確解。

測試采用的PUBLIC-eval數(shù)據(jù)集包含基礎(chǔ)推理、自然語言處理及數(shù)學(xué)推理等標(biāo)準(zhǔn)任務(wù),而更嚴(yán)苛的ARC-AGI-2測試則聚焦抽象推理、常識應(yīng)用和創(chuàng)新能力等高階認(rèn)知維度。值得關(guān)注的是,Poetiq未對任何模型進(jìn)行針對性訓(xùn)練或優(yōu)化,其系統(tǒng)完全通過改進(jìn)推理策略實(shí)現(xiàn)性能躍升。這種"模型無關(guān)"的特性,使得元系統(tǒng)能夠無縫適配不同架構(gòu)的AI模型,包括Gemini 3、GPT-5.1等前沿產(chǎn)品。

該團(tuán)隊(duì)特別強(qiáng)調(diào),所有適配工作均在新模型發(fā)布前完成,且系統(tǒng)從未接觸過測試任務(wù)集。這種"零接觸"下的跨版本性能提升,證明其捕捉到了推理過程的本質(zhì)規(guī)律,而非依賴特定模型的特性。ARC Prize總裁Greg Kamradt評價(jià)稱,若成果經(jīng)得起大規(guī)模驗(yàn)證,這套系統(tǒng)將徹底改變AI應(yīng)用模式——通過動態(tài)切換模型應(yīng)對不同任務(wù),無需為每個場景重新訓(xùn)練系統(tǒng)。

這項(xiàng)突破由六人團(tuán)隊(duì)完成,其中多位核心成員來自Google DeepMind。聯(lián)合創(chuàng)始人Ian Fischer和Shumeet Baluja均擁有資深研究背景,他們開發(fā)的元系統(tǒng)展現(xiàn)出驚人的泛化能力:在保持架構(gòu)不變的情況下,系統(tǒng)能自動適配不同模型族的認(rèn)知風(fēng)格,實(shí)現(xiàn)跨版本性能提升。這種設(shè)計(jì)哲學(xué)獲得業(yè)界高度認(rèn)可,有專家指出,在模型外部構(gòu)建智能架構(gòu)的策略,使得新模型適配時(shí)間從數(shù)周縮短至數(shù)小時(shí),為AI技術(shù)落地開辟了新路徑。

目前團(tuán)隊(duì)正在收集更詳細(xì)的性能數(shù)據(jù),初步統(tǒng)計(jì)顯示簡單任務(wù)可在8-10分鐘內(nèi)完成,而最復(fù)雜任務(wù)的計(jì)算時(shí)間控制在12小時(shí)內(nèi)。對于成本優(yōu)化機(jī)制,Poetiq確認(rèn)X-High版本確實(shí)通過更高效的推理路徑實(shí)現(xiàn)了性能突破。隨著系統(tǒng)持續(xù)迭代,這種"模型之上構(gòu)建智能"的范式,或?qū)⒅匦露x人工智能的能力邊界。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容