久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評論 旗下
洞察商業(yè) 啟迪未來

MiniMax M2.5模型上線:以低成本高性能開啟Agent2.0新時(shí)代

   時(shí)間:2026-02-14 19:49 來源:快訊作者:楊凌霄

在人工智能領(lǐng)域競爭愈發(fā)激烈的背景下,MiniMax公司于春節(jié)前夕正式推出新一代文本模型——MiniMax M2.5。這款被定位為"原生Agent生產(chǎn)級模型"的產(chǎn)品,在各大廠商圍繞"春節(jié)檔"展開密集發(fā)布時(shí)入場,為這場被業(yè)界稱為"AI諸神之戰(zhàn)"的競爭增添了新的變量。

在編程能力方面,M2.5展現(xiàn)出顯著優(yōu)勢。權(quán)威測試顯示,該模型在SWE-Bench Verified榜單中取得80.2%的得分,Multi-SWE-Bench得分達(dá)51.3%,較前代產(chǎn)品實(shí)現(xiàn)大幅提升。特別是在多語言復(fù)雜環(huán)境測試中,其表現(xiàn)超越了Opus 4.6等國際主流模型。更值得關(guān)注的是,M2.5展現(xiàn)出獨(dú)特的"原生Spec能力",能夠在編碼前自主完成架構(gòu)拆解與功能規(guī)劃,這種工作模式更接近人類架構(gòu)師的實(shí)際操作流程。

工具調(diào)用與搜索能力是M2.5的另一大突破。在BrowseComp、Wide Search等Agent任務(wù)測試中,該模型以更低的交互輪次達(dá)成更優(yōu)效果,較前代提升20%,達(dá)到行業(yè)頂尖水平。辦公場景測試同樣亮眼,在Word、PPT、Excel金融建模等高階應(yīng)用中,GDPval-MM測評框架顯示其平均勝率達(dá)59.0%,顯著優(yōu)于同類產(chǎn)品。

成本與效率的平衡是M2.5的核心競爭力。其輕量化版本M2.5-lightning支持每秒100次以上的輸出速度,是主流模型的兩倍。在價(jià)格方面,輸入成本約0.3美元/百萬Token,輸出成本約2.4美元/百萬Token。以每秒輸出100 Token計(jì)算,連續(xù)運(yùn)行一小時(shí)成本僅約1美元;若按每秒50 Token計(jì)算,成本可降至0.3美元。這種性價(jià)比優(yōu)勢使得理論上1萬美元即可支持4個(gè)Agent全年無休運(yùn)行。

支撐M2.5快速迭代的,是MiniMax獨(dú)創(chuàng)的Agent強(qiáng)化學(xué)習(xí)體系。過去108天內(nèi),該模型從M2版本連續(xù)升級至M2.5,SWE-Bench Verified成績從69.4%躍升至80.2%。其自研的Forge框架通過解耦訓(xùn)練引擎與Agent,實(shí)現(xiàn)對各類工具的泛化優(yōu)化,配合異步調(diào)度與樹狀合并策略,使訓(xùn)練效率提升約40倍。算法層面采用的CISPO優(yōu)化與過程獎(jiǎng)勵(lì)機(jī)制,有效解決了長上下文場景中的信用分配難題。

M2.5于2月12日在MiniMax Agent平臺正式上線,次日即實(shí)現(xiàn)全球開源并支持本地化部署。上線不到24小時(shí),全球用戶已在該平臺創(chuàng)建超過1萬個(gè)專業(yè)Agent,且數(shù)量持續(xù)快速增長。公司表示,將在持續(xù)提升模型能力的同時(shí),著力構(gòu)建可擴(kuò)展的Agent生態(tài)體系,推動(dòng)AI技術(shù)從專業(yè)領(lǐng)域向日常辦公、創(chuàng)作娛樂等場景全面滲透。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容