資訊在沃

當前位置：沃資訊 > 財經 > 正文內容

無需神經網絡參數更新！OpenAI新范式HL：用代碼編輯實現AI決策進化

發布時間：2026-05-10 08:14 來源：快訊作者：沈如風

在強化學習領域，一項突破性成果引發關注：一種無需神經網絡訓練、不依賴梯度更新的全新范式——啟發式學習（Heuristic Learning, HL），成功在經典游戲《Breakout》中取得864分的理論滿分，并在多項任務中超越傳統算法。這一成果由OpenAI核心研究員翁家翌提出，其核心在于將決策邏輯從神經網絡的隱式權重轉化為顯式程序代碼，通過代碼編輯替代梯度下降，實現狀態-動作的符號化映射。

傳統深度強化學習（DRL）長期依賴神經網絡作為決策核心，但這一架構存在三大瓶頸：一是災難性遺忘，新任務訓練會覆蓋舊技能；二是決策黑箱，動作選擇隱藏在復雜權重中難以解釋；三是樣本效率低，依賴海量數據迭代，算力消耗巨大。翁家翌團隊提出的HL范式則徹底摒棄參數更新，轉而構建一套完整的智能化軟件系統，包含顯式狀態檢測器（如“球在左上方，速度向右”）、規則邏輯（如“若球將落左，則向左移動”）以及測試用例、失敗記錄等模塊。每次迭代中，由GPT-5.4驅動的Codex會分析系統表現、失敗錄像和日志，直接對代碼進行結構性調整，而非優化神經網絡權重。

這一設計使HL天然具備可解釋性、抗遺忘性和高效率特性。知識以模塊化形式存儲，舊能力不會被覆蓋，而是通過測試封裝為可調用、可驗證的組件。翁家翌比喻道：“HL將持續學習從‘更新參數’轉化為‘維護一個吸收反饋的軟件系統’?！北M管HL內部某些組件（如模型預測控制MPC）仍會使用梯度進行局部搜索，但其運算僅服務于實時動作決策，不涉及神經網絡訓練。

實驗驗證了HL的競爭力。在包含57款經典游戲的Atari基準測試中，HL在統一環境交互步數下，中位表現與主流算法PPO持平，并在《Breakout》《Asterix》等游戲中超越人類玩家水平。更復雜的連續控制任務中，HL同樣表現亮眼：在四足機器人Ant任務中，其通過迭代加入姿態反饋、觸地信號感知等邏輯，綜合評分突破6000分；在HalfCheetah獵豹仿真任務中，平均得分達11836分，展現出對高維連續動作空間的強適配能力。

翁家翌坦言，HL并非萬能。他指出，目前難以想象用純Python代碼解決ImageNet等復雜視覺任務，但HL的價值在于策略持續迭代場景，尤其當環境動態變化、需要長期自適應調整時，顯式代碼規則系統更具優勢。他提出，未來可探索將神經網絡與HL融合：利用HL實時處理環境數據流，沉淀可復用的在線行為經驗，再將這些經驗轉化為高質量數據集，反向迭代更新神經網絡，從而攻克在線學習與持續學習的雙重挑戰。

更多>同類內容

2026危機公關新挑戰：“硬剛”“沉默”失效，AI技術成破局關鍵？

05-09

AI不是職業“終結者”而是“助力器”，小鳳仙揭秘AI就業新賽道與成長密碼

05-09

歐諾科技IPO：董事長夫婦掌控超七成表決權 90后外甥劉德利出任董事

05-09

技術工程師逆襲成董事長！85后歐陽錫聰攜歐諾科技沖刺深主板IPO

05-09

凌晨“靜默升級”致續航縮水，車企鎖電轉嫁成本，車主權益誰來保障？

05-09

Q1凈利同比暴增1230%！群聯備貨超157億，加速AI存儲與平臺轉型

05-09

2026年Robotaxi賽道激戰正酣：海外巨頭與國內領跑者共繪商業化新藍圖

05-09

李書福董明珠攜手共話中國制造：董明珠出任極氪品質體驗官助力品質升級

05-09

馬斯克“退一步”進擊太空：xAI解散背后，是AI工具化與太空生態新布局

05-09

追覓俞浩“全員營銷”引爭議：狂飆擴張下，流量狂歡能否撐起宏大愿景？

05-09

建科智能股價年內創新高董事長兄長擬減持或將套現超五千萬

05-09

百度昆侖芯“A+H”雙線推進上市路，從自研省錢到估值百億的芯片征程

05-08

2026款豐田鉑智3X煥新登場！9.48萬起售，智能升級續航最長610km

05-08

馬斯克訴OpenAI案添變數：兩位女證人證詞引爆信任與利益之爭

05-08

雅戈爾董事會換屆在即李如成將交棒女兒李寒窮或掌舵新征程

05-08

點擊查看更多 +

全站最新

海泰北外灘：黃金三角核心區江景豪宅，高得房率精裝大平層，2026高端改善優選

海泰北外灘：黃金三角核心區江景豪宅，高得房率精裝大平層，2026高端改善優選

Anthropic與Akamai簽122億大單，AI算力爭奪戰再添新變局

Anthropic與Akamai簽122億大單，AI算力爭奪戰再添新變局

30萬預算選車：奧迪與小米之爭，折射消費價值觀與時代新走向

30萬預算選車：奧迪與小米之爭，折射消費價值觀與時代新走向

合資新能源“價格下探+本土深耕”雙管齊下，能否與中國品牌“平起平坐”？

合資新能源“價格下探+本土深耕”雙管齊下，能否與中國品牌“平起平坐”？

2026款豐田鉑智3X上市，智能配置升級，10.98萬起售滿足多樣出行需求

2026款豐田鉑智3X上市，智能配置升級，10.98萬起售滿足多樣出行需求

2026危機公關新挑戰：“硬剛”“沉默”失效，AI技術成破局關鍵？

2026危機公關新挑戰：“硬剛”“沉默”失效，AI技術成破局關鍵？

AI生成虛假信息致律師名譽受損，百度被判侵權：平臺責任不可“幻覺化”

AI生成虛假信息致律師名譽受損，百度被判侵權：平臺責任不可“幻覺化”

xAI大洗牌：11位聯創集體退場，馬斯克豪擲600億引入Cursor重塑AI版圖

xAI大洗牌：11位聯創集體退場，馬斯克豪擲600億引入Cursor重塑AI版圖

熱門內容

沃資訊門戶 · 資訊在沃千萬用戶的默認資訊主頁合作微信：netspread（注明:沃資訊）
Copyright ? wwo.com.cn All rights reserved. 魯ICP備11015305號-23