資訊在沃

無需神經網絡參數更新!OpenAI新范式HL:用代碼編輯實現AI決策進化

   發布時間:2026-05-10 08:14 作者:沈如風

在強化學習領域,一項突破性成果引發關注:一種無需神經網絡訓練、不依賴梯度更新的全新范式——啟發式學習(Heuristic Learning, HL),成功在經典游戲《Breakout》中取得864分的理論滿分,并在多項任務中超越傳統算法。這一成果由OpenAI核心研究員翁家翌提出,其核心在于將決策邏輯從神經網絡的隱式權重轉化為顯式程序代碼,通過代碼編輯替代梯度下降,實現狀態-動作的符號化映射。

傳統深度強化學習(DRL)長期依賴神經網絡作為決策核心,但這一架構存在三大瓶頸:一是災難性遺忘,新任務訓練會覆蓋舊技能;二是決策黑箱,動作選擇隱藏在復雜權重中難以解釋;三是樣本效率低,依賴海量數據迭代,算力消耗巨大。翁家翌團隊提出的HL范式則徹底摒棄參數更新,轉而構建一套完整的智能化軟件系統,包含顯式狀態檢測器(如“球在左上方,速度向右”)、規則邏輯(如“若球將落左,則向左移動”)以及測試用例、失敗記錄等模塊。每次迭代中,由GPT-5.4驅動的Codex會分析系統表現、失敗錄像和日志,直接對代碼進行結構性調整,而非優化神經網絡權重。

這一設計使HL天然具備可解釋性、抗遺忘性和高效率特性。知識以模塊化形式存儲,舊能力不會被覆蓋,而是通過測試封裝為可調用、可驗證的組件。翁家翌比喻道:“HL將持續學習從‘更新參數’轉化為‘維護一個吸收反饋的軟件系統’?!北M管HL內部某些組件(如模型預測控制MPC)仍會使用梯度進行局部搜索,但其運算僅服務于實時動作決策,不涉及神經網絡訓練。

實驗驗證了HL的競爭力。在包含57款經典游戲的Atari基準測試中,HL在統一環境交互步數下,中位表現與主流算法PPO持平,并在《Breakout》《Asterix》等游戲中超越人類玩家水平。更復雜的連續控制任務中,HL同樣表現亮眼:在四足機器人Ant任務中,其通過迭代加入姿態反饋、觸地信號感知等邏輯,綜合評分突破6000分;在HalfCheetah獵豹仿真任務中,平均得分達11836分,展現出對高維連續動作空間的強適配能力。

翁家翌坦言,HL并非萬能。他指出,目前難以想象用純Python代碼解決ImageNet等復雜視覺任務,但HL的價值在于策略持續迭代場景,尤其當環境動態變化、需要長期自適應調整時,顯式代碼規則系統更具優勢。他提出,未來可探索將神經網絡與HL融合:利用HL實時處理環境數據流,沉淀可復用的在線行為經驗,再將這些經驗轉化為高質量數據集,反向迭代更新神經網絡,從而攻克在線學習與持續學習的雙重挑戰。

 
 
更多>同類內容
全站最新
熱門內容