資訊在沃

無需神經網絡參數更新!OpenAI新范式HL:以代碼編輯驅動強化學習突破

   發布時間:2026-05-10 07:15 作者:柳晴雪

在強化學習領域,一項突破性成果引發關注:一種無需神經網絡訓練、不依賴梯度更新的全新學習范式——啟發式學習(Heuristic Learning, HL),成功在經典游戲Breakout中斬獲864分的理論滿分,并在多項任務中展現出超越傳統算法的潛力。

傳統深度強化學習(DRL)長期依賴神經網絡作為決策核心,通過梯度下降算法優化網絡參數。然而,這種模式存在三大瓶頸:一是“災難性遺忘”——新任務訓練會覆蓋舊技能;二是決策過程如“黑箱”,難以追溯動作依據;三是樣本效率低,需海量數據才能收斂。針對這些問題,HL范式徹底摒棄參數更新,轉而以可讀的程序代碼承載決策邏輯,將學習過程轉化為代碼編輯與系統優化。

HL框架下,AI不再維護單一策略文件,而是構建了一個包含顯式狀態檢測器、規則邏輯和測試工具的完整軟件系統。例如,在Breakout游戲中,系統會明確記錄“球在左上方且向右移動”的狀態,并執行“若球將落左側則向左移動”的規則。每次迭代中,由GPT-5.4驅動的Codex會分析失敗錄像、日志和測試結果,對代碼進行結構性調整,而非盲目調整參數。這種設計使舊能力被封裝為可驗證的模塊,實現了知識的可追溯性與可傳承性。

盡管HL并非完全排斥梯度技術——其模型預測控制(MPC)等組件仍會使用梯度進行局部搜索,但這些運算僅服務于實時動作決策,不涉及神經網絡訓練。這種架構賦予了HL天然的可解釋性、抗遺忘性和高效率特性。在Atari 57基準測試中,HL在統一環境交互步數下,中位表現已與PPO等主流算法持平,并在Breakout、Asterix等游戲中超越人類玩家水平。

在連續控制任務中,HL的表現同樣亮眼。以四足機器人Ant為例,其從基礎步態規則起步,逐步迭代加入姿態反饋、觸地感知等邏輯,最終綜合評分突破6000分,達到專業深度強化學習模型水平。在HalfCheetah仿真任務中,HL更以11836的平均分展現了處理復雜連續動作空間的能力。研究者指出,HL的核心優勢在于策略的持續迭代能力——當環境動態變化時,顯式代碼規則系統能更高效地自適應調整行為邏輯。

不過,HL并非萬能。研究者坦言,目前尚無純代碼驅動的模型能解決ImageNet等復雜視覺任務。其價值更體現在需要長期自適應的場景中,例如機器人控制或在線學習系統。當前研究方向聚焦于神經網絡與HL的融合:通過HL實時處理環境數據流,沉淀可復用的在線行為經驗,再將這些經驗轉化為高質量數據集,反向迭代更新神經網絡。這種“顯式規則+神經網絡”的混合模式,或為攻克在線學習與持續學習難題提供新路徑。

 
 
更多>同類內容
全站最新
熱門內容