國(guó)產(chǎn)大模型領(lǐng)域迎來(lái)重要進(jìn)展。近日,DeepSeek開(kāi)源全新項(xiàng)目并發(fā)布重磅論文,提出名為Engram的“條件記憶”機(jī)制,為解決MoE模型效率難題提供了創(chuàng)新方案,該機(jī)制有望成為其下一代模型DeepSeek-V4的核心架構(gòu)。
論文作者陣容強(qiáng)大,由DeepSeek創(chuàng)始人兼CEO梁文鋒領(lǐng)銜,北大王選計(jì)算機(jī)研究所的趙東巖、張輝帥兩位教授參與其中。值得注意的是,論文第一作者程信是北大智能學(xué)院在讀博士生,同時(shí)也是DeepSeek實(shí)習(xí)生,曾深度參與R1、V3等核心項(xiàng)目研發(fā)。
Engram機(jī)制的核心創(chuàng)新在于為大模型構(gòu)建“外接記憶庫(kù)”。傳統(tǒng)MoE模型在處理信息時(shí),會(huì)對(duì)常見(jiàn)名字、公式等靜態(tài)知識(shí)進(jìn)行重復(fù)計(jì)算,導(dǎo)致計(jì)算資源浪費(fèi)和效率低下。DeepSeek團(tuán)隊(duì)將這些固定知識(shí)整理成可快速查詢的表格,使模型能夠?qū)W⒂趶?fù)雜推理和長(zhǎng)文本理解等核心任務(wù)。
這一設(shè)計(jì)帶來(lái)顯著優(yōu)勢(shì)。數(shù)據(jù)顯示,Engram架構(gòu)的訓(xùn)練計(jì)算量較傳統(tǒng)MoE模型減少18%。在32768個(gè)token的長(zhǎng)上下文任務(wù)中,該架構(gòu)在RULER基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于同參數(shù)量MoE模型。其淺層部署的記憶模塊能夠處理局部依賴和靜態(tài)知識(shí)存儲(chǔ),為注意力機(jī)制釋放更多容量用于全局推理。即使卸載1000億參數(shù)的記憶表,H800推理吞吐量降幅也不足3%。研究還發(fā)現(xiàn),增加記憶槽位數(shù)量可持續(xù)降低驗(yàn)證損失,為大模型性能提升提供了可預(yù)測(cè)的擴(kuò)展路徑。
程信在Engram機(jī)制研發(fā)過(guò)程中發(fā)揮關(guān)鍵作用。剛加入DeepSeek時(shí),他參與R1模型參數(shù)優(yōu)化工作,因在高效參數(shù)化方法上的獨(dú)到見(jiàn)解被納入核心團(tuán)隊(duì)。在研發(fā)初期,團(tuán)隊(duì)面臨記憶模塊與主干網(wǎng)絡(luò)適配難題,程信結(jié)合研究方向提出分詞器壓縮與上下文感知門(mén)控結(jié)合的方案。他連續(xù)兩周在實(shí)驗(yàn)室調(diào)整參數(shù)、驗(yàn)證效果,最終解決了靜態(tài)記憶缺乏上下文適應(yīng)性的關(guān)鍵問(wèn)題。
程信的成長(zhǎng)軌跡反映了DeepSeek與高校聯(lián)合培養(yǎng)模式的成效。據(jù)公開(kāi)報(bào)道,該企業(yè)長(zhǎng)期與北大、清華等高校開(kāi)展人才聯(lián)合培養(yǎng)計(jì)劃,程信正是通過(guò)這一計(jì)劃進(jìn)入企業(yè)實(shí)習(xí)。目前,DeepSeek核心研發(fā)團(tuán)隊(duì)中,三成成員來(lái)自高校實(shí)習(xí)轉(zhuǎn)正的年輕人才。這種校企協(xié)同模式使青年科研人員在學(xué)術(shù)研究與工程落地結(jié)合中快速成長(zhǎng),成為推動(dòng)國(guó)產(chǎn)大模型創(chuàng)新的重要力量。
從工程落地角度看,Engram機(jī)制具有顯著優(yōu)勢(shì)。其記憶檢索完全依賴輸入token,實(shí)現(xiàn)了參數(shù)存儲(chǔ)與計(jì)算資源的解耦。訓(xùn)練時(shí)可將超大嵌入表分片至多張GPU,推理時(shí)能提前預(yù)取數(shù)據(jù)避免GPU停頓。基于自然語(yǔ)言的Zipf分布特性,該機(jī)制采用多級(jí)緩存策略,高頻嵌入存于GPU或主機(jī)內(nèi)存,低頻嵌入置于SSD,可輕松擴(kuò)展至超大規(guī)模記憶。
DeepSeek在論文中明確表示,條件記憶將成為下一代稀疏模型的核心建模原語(yǔ)。目前,Engram的論文和項(xiàng)目已完全開(kāi)源,開(kāi)發(fā)者可通過(guò)GitHub獲取相關(guān)資料。這一開(kāi)放舉措展現(xiàn)了國(guó)產(chǎn)大模型在核心技術(shù)領(lǐng)域的自信,有望吸引更多力量參與生態(tài)建設(shè)。




















