日韩男女激情视频在线观看,日韩人妻无码精品久久免费一,亚洲AV五月天久久精品

OpenAI新基準FrontierScience出爐：AI科研能力大檢驗，距一流科學(xué)家尚遠

發(fā)布時間：2025-12-18 00:34 來源：快訊作者：朱天宇

人工智能在科研領(lǐng)域的表現(xiàn)再次成為焦點。OpenAI近日推出全新基準測試FrontierScience，通過物理、化學(xué)、生物三大領(lǐng)域的博士級難題，檢驗AI系統(tǒng)能否突破知識記憶層面，實現(xiàn)真正的科學(xué)推理能力。這項測試揭示了一個關(guān)鍵結(jié)論：即便在標準化考試中表現(xiàn)優(yōu)異，當(dāng)前AI距離成為獨立科研工作者仍有顯著差距。

該基準測試包含700余道文本型題目，分為競賽賽道與研究賽道兩大模塊。競賽賽道聚焦100道短答案題目，要求在嚴格約束條件下完成精準推理；研究賽道則設(shè)置60個開放式子任務(wù)，涵蓋量子電動力學(xué)、合成有機化學(xué)等前沿方向，需在無標準答案的情況下構(gòu)建完整邏輯鏈條。測試特別設(shè)置"黃金組"160道題目作為核心評估樣本，其中研究賽道題目由45位領(lǐng)域?qū)＜以O(shè)計，采用10分制評分標準，7分以上視為通過。

測試結(jié)果顯示，GPT-5.2在競賽賽道取得77%的正確率，研究賽道得分25%，暫居領(lǐng)先地位；Gemini 3 Pro以76%的競賽成績緊隨其后。但深入分析錯誤類型發(fā)現(xiàn)，前沿模型普遍存在推理斷層、概念混淆和計算偏差等問題。例如在量子物理題目中，某模型因混淆"自旋軌道耦合"與"角動量守恒"導(dǎo)致全盤錯誤；有機化學(xué)合成路徑規(guī)劃中，另一模型因忽視立體選擇性反應(yīng)條件而設(shè)計出不可行方案。

測試設(shè)計團隊刻意排除現(xiàn)有模型能夠解答的題目，使得評估標準更為嚴苛。為確保評分客觀性，研究賽道采用GPT-5作為自動評分系統(tǒng)，通過對照專家制定的評分細則進行逐項判定。盡管這種設(shè)計可能對OpenAI自家模型形成額外挑戰(zhàn)，但開發(fā)團隊強調(diào)這有助于更真實反映模型在未知領(lǐng)域的適應(yīng)能力。測試數(shù)據(jù)表明，模型思考時間與準確率呈正相關(guān)，在給予充分推理時間的情況下，部分題目的正確率可提升15-20個百分點。

這項基準測試也暴露出當(dāng)前評估體系的局限性。OpenAI坦言，現(xiàn)有測試框架將復(fù)雜科研過程簡化為可控題目，如同"用顯微鏡觀察森林"，難以衡量模型提出創(chuàng)新假設(shè)的能力，也無法評估其處理多模態(tài)數(shù)據(jù)或指導(dǎo)實驗操作的實際價值。測試團隊正在開發(fā)擴展題庫，計劃納入更多跨學(xué)科場景和真實實驗數(shù)據(jù)，同時建立長期追蹤機制，觀察AI系統(tǒng)如何切實輔助科研人員提升工作效率。

更多>同類內(nèi)容