久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

OpenAI新基準(zhǔn)FrontierScience出爐:AI科研能力大檢驗(yàn),距一流科學(xué)家尚遠(yuǎn)

   時(shí)間:2025-12-18 00:34 來(lái)源:快訊作者:朱天宇

人工智能在科研領(lǐng)域的表現(xiàn)再次成為焦點(diǎn)。OpenAI近日推出全新基準(zhǔn)測(cè)試FrontierScience,通過(guò)物理、化學(xué)、生物三大領(lǐng)域的博士級(jí)難題,檢驗(yàn)AI系統(tǒng)能否突破知識(shí)記憶層面,實(shí)現(xiàn)真正的科學(xué)推理能力。這項(xiàng)測(cè)試揭示了一個(gè)關(guān)鍵結(jié)論:即便在標(biāo)準(zhǔn)化考試中表現(xiàn)優(yōu)異,當(dāng)前AI距離成為獨(dú)立科研工作者仍有顯著差距。

該基準(zhǔn)測(cè)試包含700余道文本型題目,分為競(jìng)賽賽道與研究賽道兩大模塊。競(jìng)賽賽道聚焦100道短答案題目,要求在嚴(yán)格約束條件下完成精準(zhǔn)推理;研究賽道則設(shè)置60個(gè)開(kāi)放式子任務(wù),涵蓋量子電動(dòng)力學(xué)、合成有機(jī)化學(xué)等前沿方向,需在無(wú)標(biāo)準(zhǔn)答案的情況下構(gòu)建完整邏輯鏈條。測(cè)試特別設(shè)置"黃金組"160道題目作為核心評(píng)估樣本,其中研究賽道題目由45位領(lǐng)域?qū)<以O(shè)計(jì),采用10分制評(píng)分標(biāo)準(zhǔn),7分以上視為通過(guò)。

測(cè)試結(jié)果顯示,GPT-5.2在競(jìng)賽賽道取得77%的正確率,研究賽道得分25%,暫居領(lǐng)先地位;Gemini 3 Pro以76%的競(jìng)賽成績(jī)緊隨其后。但深入分析錯(cuò)誤類(lèi)型發(fā)現(xiàn),前沿模型普遍存在推理斷層、概念混淆和計(jì)算偏差等問(wèn)題。例如在量子物理題目中,某模型因混淆"自旋軌道耦合"與"角動(dòng)量守恒"導(dǎo)致全盤(pán)錯(cuò)誤;有機(jī)化學(xué)合成路徑規(guī)劃中,另一模型因忽視立體選擇性反應(yīng)條件而設(shè)計(jì)出不可行方案。

測(cè)試設(shè)計(jì)團(tuán)隊(duì)刻意排除現(xiàn)有模型能夠解答的題目,使得評(píng)估標(biāo)準(zhǔn)更為嚴(yán)苛。為確保評(píng)分客觀性,研究賽道采用GPT-5作為自動(dòng)評(píng)分系統(tǒng),通過(guò)對(duì)照專(zhuān)家制定的評(píng)分細(xì)則進(jìn)行逐項(xiàng)判定。盡管這種設(shè)計(jì)可能對(duì)OpenAI自家模型形成額外挑戰(zhàn),但開(kāi)發(fā)團(tuán)隊(duì)強(qiáng)調(diào)這有助于更真實(shí)反映模型在未知領(lǐng)域的適應(yīng)能力。測(cè)試數(shù)據(jù)表明,模型思考時(shí)間與準(zhǔn)確率呈正相關(guān),在給予充分推理時(shí)間的情況下,部分題目的正確率可提升15-20個(gè)百分點(diǎn)。

這項(xiàng)基準(zhǔn)測(cè)試也暴露出當(dāng)前評(píng)估體系的局限性。OpenAI坦言,現(xiàn)有測(cè)試框架將復(fù)雜科研過(guò)程簡(jiǎn)化為可控題目,如同"用顯微鏡觀察森林",難以衡量模型提出創(chuàng)新假設(shè)的能力,也無(wú)法評(píng)估其處理多模態(tài)數(shù)據(jù)或指導(dǎo)實(shí)驗(yàn)操作的實(shí)際價(jià)值。測(cè)試團(tuán)隊(duì)正在開(kāi)發(fā)擴(kuò)展題庫(kù),計(jì)劃納入更多跨學(xué)科場(chǎng)景和真實(shí)實(shí)驗(yàn)數(shù)據(jù),同時(shí)建立長(zhǎng)期追蹤機(jī)制,觀察AI系統(tǒng)如何切實(shí)輔助科研人員提升工作效率。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容