久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現者網 手機網站 站內搜索
  • 洞察行業(yè)動向,賦能未來市場!發(fā)現者網,商業(yè)視角的探索之旅!
發(fā)現商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

6位前DeepMind成員創(chuàng)元系統(tǒng),低成本策略引領大模型推理新突破

   時間:2025-12-15 09:11 來源:快訊作者:鐘景軒

在人工智能領域,一場由前Google DeepMind成員掀起的技術革新正引發(fā)廣泛關注。這支6人團隊成立的新公司Poetiq,通過構建元系統(tǒng)重新定義了大模型的應用方式,在復雜推理任務中展現出突破性表現。其研發(fā)的Gemini 3 Pro優(yōu)化技術在ARC-AGI-2基準測試中以54%的準確率登頂排行榜,同時將計算成本壓縮至行業(yè)最優(yōu)水平的一半。

這個技術團隊雖成立不足一年,卻匯聚了來自DeepMind的資深專家,累計擁有53年人工智能研發(fā)經驗。他們選擇了一條與眾不同的技術路徑:不追求構建更大規(guī)模的模型,而是專注于開發(fā)能夠智能調度現有模型的元系統(tǒng)。這種創(chuàng)新架構使系統(tǒng)能夠自動生成針對特定任務的解決方案,通過組合不同模型的優(yōu)勢實現性能突破。

在12月8日公布的官方驗證結果中,Poetiq系統(tǒng)在ARC-AGI-2半私有評估集上創(chuàng)造了新紀錄。其純Gemini配置方案以每題30.57美元的成本達成54%準確率,相比前紀錄保持者Gemini 3 Deep Think(77.16美元/45%)實現雙重超越。更引人注目的是,該系統(tǒng)在公共數據集上構建的帕累托前沿,同時推進了準確率與成本效率的邊界。

技術核心在于其遞歸式元系統(tǒng)架構。該系統(tǒng)通過多輪交互實現自我優(yōu)化:首先生成初步解決方案,再根據反饋持續(xù)改進,最終形成可靠答案。這種自我監(jiān)控機制能夠智能判斷何時終止計算,有效避免算力浪費。測試數據顯示,基于Grok-4-Fast的配置在保持高準確率的同時,成本比原始模型降低兩個數量級;而開源模型GPT-OSS-120B的衍生方案,甚至實現了單題成本低于1美分的突破。

該系統(tǒng)的適應性在跨模型測試中得到充分驗證。當應用于ChatGPT、Claude Haiku、Gemini等12個主流模型時,Poetiq均實現了準確率與成本的雙重優(yōu)化。這種表現源于其完全基于大語言模型的架構設計——從系統(tǒng)構建到運行監(jiān)控,整個流程均由模型自主完成。這種遞歸式強化機制,使得系統(tǒng)能夠快速整合新模型的能力,在Gemini 3和GPT-5.1發(fā)布后數小時內即完成適配并取得領先成績。

選擇ARC-AGI作為測試場源于其對復雜推理能力的嚴苛考驗。該基準測試要求模型具備抽象推理、歸納總結和策略生成能力,恰好對應Poetiq系統(tǒng)的優(yōu)勢領域。通過讓模型自主發(fā)現最優(yōu)推理路徑,系統(tǒng)能夠在預算、算力等現實約束下,持續(xù)優(yōu)化解決方案。這種設計理念在測試中得到充分驗證:系統(tǒng)在處理多樣化任務時展現出強大的自適應能力,能夠根據任務特性動態(tài)調整模型組合策略。

技術團隊透露,其開源配置旨在證明智能的本質不在于提示詞工程,而在于構建能夠自我進化的系統(tǒng)。通過多步驟驗證和自我檢查機制,系統(tǒng)能夠逐步打磨解決方案,這種運行模式突破了傳統(tǒng)大模型對提示詞的依賴。隨著任務多樣性的增加,元系統(tǒng)的進化速度將進一步提升,為生成式AI在復雜場景的應用開辟新路徑。

 
 
更多>同類內容
全站最新
熱門內容