在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

OpenAI新基準FrontierScience出爐:AI科研能力大檢驗,距一流科學(xué)家尚遠

   發(fā)布時間:2025-12-18 00:34 作者:朱天宇

人工智能在科研領(lǐng)域的表現(xiàn)再次成為焦點。OpenAI近日推出全新基準測試FrontierScience,通過物理、化學(xué)、生物三大領(lǐng)域的博士級難題,檢驗AI系統(tǒng)能否突破知識記憶層面,實現(xiàn)真正的科學(xué)推理能力。這項測試揭示了一個關(guān)鍵結(jié)論:即便在標準化考試中表現(xiàn)優(yōu)異,當(dāng)前AI距離成為獨立科研工作者仍有顯著差距。

該基準測試包含700余道文本型題目,分為競賽賽道與研究賽道兩大模塊。競賽賽道聚焦100道短答案題目,要求在嚴格約束條件下完成精準推理;研究賽道則設(shè)置60個開放式子任務(wù),涵蓋量子電動力學(xué)、合成有機化學(xué)等前沿方向,需在無標準答案的情況下構(gòu)建完整邏輯鏈條。測試特別設(shè)置"黃金組"160道題目作為核心評估樣本,其中研究賽道題目由45位領(lǐng)域?qū)<以O(shè)計,采用10分制評分標準,7分以上視為通過。

測試結(jié)果顯示,GPT-5.2在競賽賽道取得77%的正確率,研究賽道得分25%,暫居領(lǐng)先地位;Gemini 3 Pro以76%的競賽成績緊隨其后。但深入分析錯誤類型發(fā)現(xiàn),前沿模型普遍存在推理斷層、概念混淆和計算偏差等問題。例如在量子物理題目中,某模型因混淆"自旋軌道耦合"與"角動量守恒"導(dǎo)致全盤錯誤;有機化學(xué)合成路徑規(guī)劃中,另一模型因忽視立體選擇性反應(yīng)條件而設(shè)計出不可行方案。

測試設(shè)計團隊刻意排除現(xiàn)有模型能夠解答的題目,使得評估標準更為嚴苛。為確保評分客觀性,研究賽道采用GPT-5作為自動評分系統(tǒng),通過對照專家制定的評分細則進行逐項判定。盡管這種設(shè)計可能對OpenAI自家模型形成額外挑戰(zhàn),但開發(fā)團隊強調(diào)這有助于更真實反映模型在未知領(lǐng)域的適應(yīng)能力。測試數(shù)據(jù)表明,模型思考時間與準確率呈正相關(guān),在給予充分推理時間的情況下,部分題目的正確率可提升15-20個百分點。

這項基準測試也暴露出當(dāng)前評估體系的局限性。OpenAI坦言,現(xiàn)有測試框架將復(fù)雜科研過程簡化為可控題目,如同"用顯微鏡觀察森林",難以衡量模型提出創(chuàng)新假設(shè)的能力,也無法評估其處理多模態(tài)數(shù)據(jù)或指導(dǎo)實驗操作的實際價值。測試團隊正在開發(fā)擴展題庫,計劃納入更多跨學(xué)科場景和真實實驗數(shù)據(jù),同時建立長期追蹤機制,觀察AI系統(tǒng)如何切實輔助科研人員提升工作效率。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容