在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

清華姚班校友鐘沛林新研究獲Jeff Dean點(diǎn)贊,AI領(lǐng)域再掀創(chuàng)新浪潮

   發(fā)布時(shí)間:2025-11-26 10:22 作者:陸辰風(fēng)

谷歌AI負(fù)責(zé)人Jeff Dean近日點(diǎn)贊了一項(xiàng)突破性研究,這項(xiàng)由清華姚班校友鐘沛林團(tuán)隊(duì)提出的新范式——嵌套學(xué)習(xí)(Nested Learning,NL),為大語(yǔ)言模型領(lǐng)域長(zhǎng)期存在的災(zāi)難性遺忘問(wèn)題提供了創(chuàng)新解決方案。研究論文已被NeurIPS 2025接收,其核心成果Hope模型在多項(xiàng)基準(zhǔn)測(cè)試中超越了Transformer等主流架構(gòu)。

傳統(tǒng)深度學(xué)習(xí)模型依賴堆疊網(wǎng)絡(luò)層數(shù)和擴(kuò)大參數(shù)規(guī)模提升性能,但這種模式已逐漸觸及瓶頸。研究團(tuán)隊(duì)指出,大語(yǔ)言模型普遍存在“順行性遺忘”問(wèn)題:預(yù)訓(xùn)練完成后難以吸收新知識(shí),僅能依賴有限上下文窗口或固化參數(shù),無(wú)法像人類(lèi)一樣動(dòng)態(tài)積累知識(shí)。嵌套學(xué)習(xí)通過(guò)模擬人腦認(rèn)知機(jī)制,將模型重構(gòu)為多層級(jí)的優(yōu)化系統(tǒng),每個(gè)層級(jí)擁有獨(dú)立的上下文流和更新頻率,實(shí)現(xiàn)信息的高效處理與存儲(chǔ)。

論文揭示,當(dāng)前廣泛使用的Transformer架構(gòu)本質(zhì)上是嵌套學(xué)習(xí)的簡(jiǎn)化版本。其線性層結(jié)構(gòu)僅保留了NL的多層級(jí)協(xié)同中的單一層級(jí),未能充分發(fā)揮分層記憶的優(yōu)勢(shì)。研究團(tuán)隊(duì)提出的Hope模型基于NL范式,在語(yǔ)言建模和長(zhǎng)上下文記憶任務(wù)中表現(xiàn)優(yōu)異,參數(shù)規(guī)模從760M到1.3B的版本均顯著超越Transformer、RetNet等基線模型,在Wiki文本困惑度、物理常識(shí)推理等指標(biāo)上展現(xiàn)出更強(qiáng)的語(yǔ)言理解和推理能力。

該研究的核心創(chuàng)新包含三大模塊:深度優(yōu)化器通過(guò)預(yù)處理機(jī)制識(shí)別梯度性質(zhì),用神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)線性記憶,實(shí)現(xiàn)靈活調(diào)參;自我修改模型允許架構(gòu)在訓(xùn)練中自主調(diào)整參數(shù),無(wú)需人工干預(yù)即可適配新領(lǐng)域數(shù)據(jù);連續(xù)記憶系統(tǒng)將傳統(tǒng)二元記憶結(jié)構(gòu)升級(jí)為多尺度記憶鏈,不同模塊按不同頻率更新,分別存儲(chǔ)短期細(xì)節(jié)與長(zhǎng)期規(guī)律。這些創(chuàng)新使模型具備類(lèi)似人類(lèi)的分層記憶管理能力。

這項(xiàng)研究的領(lǐng)軍人物鐘沛林2016年畢業(yè)于清華姚班,2021年獲得哥倫比亞大學(xué)計(jì)算機(jī)博士學(xué)位后加入谷歌紐約研究院。他的學(xué)術(shù)軌跡始于中學(xué)時(shí)期的競(jìng)賽生涯:2012年代表雅禮中學(xué)奪得國(guó)際信息學(xué)奧林匹克競(jìng)賽金牌,與同校發(fā)小艾雨青并稱“雙子星”,兩人均保送至清華姚班。如今,這對(duì)昔日搭檔已先后入職meta,分別擔(dān)任AI科學(xué)家與軟件工程師,繼續(xù)在人工智能領(lǐng)域深耕。

 
 
更多>同類(lèi)內(nèi)容
全站最新
熱門(mén)內(nèi)容