DeepSeek新機(jī)制Engram亮相實(shí)習(xí)生擔(dān)綱國(guó)產(chǎn)大模型創(chuàng)新與人才雙突破-游戲-沃資訊

DeepSeek新機(jī)制Engram亮相實(shí)習(xí)生擔(dān)綱國(guó)產(chǎn)大模型創(chuàng)新與人才雙突破

發(fā)布時(shí)間：2026-01-15 17:22 來(lái)源：快訊作者：江紫萱

國(guó)產(chǎn)大模型領(lǐng)域迎來(lái)重要進(jìn)展。近日，DeepSeek開(kāi)源全新項(xiàng)目并發(fā)布重磅論文，提出名為Engram的“條件記憶”機(jī)制，為解決MoE模型效率難題提供了創(chuàng)新方案，該機(jī)制有望成為其下一代模型DeepSeek-V4的核心架構(gòu)。

論文作者陣容強(qiáng)大，由DeepSeek創(chuàng)始人兼CEO梁文鋒領(lǐng)銜，北大王選計(jì)算機(jī)研究所的趙東巖、張輝帥兩位教授參與其中。值得注意的是，論文第一作者程信是北大智能學(xué)院在讀博士生，同時(shí)也是DeepSeek實(shí)習(xí)生，曾深度參與R1、V3等核心項(xiàng)目研發(fā)。

Engram機(jī)制的核心創(chuàng)新在于為大模型構(gòu)建“外接記憶庫(kù)”。傳統(tǒng)MoE模型在處理信息時(shí)，會(huì)對(duì)常見(jiàn)名字、公式等靜態(tài)知識(shí)進(jìn)行重復(fù)計(jì)算，導(dǎo)致計(jì)算資源浪費(fèi)和效率低下。DeepSeek團(tuán)隊(duì)將這些固定知識(shí)整理成可快速查詢的表格，使模型能夠?qū)Ｗ⒂趶?fù)雜推理和長(zhǎng)文本理解等核心任務(wù)。

這一設(shè)計(jì)帶來(lái)顯著優(yōu)勢(shì)。數(shù)據(jù)顯示，Engram架構(gòu)的訓(xùn)練計(jì)算量較傳統(tǒng)MoE模型減少18%。在32768個(gè)token的長(zhǎng)上下文任務(wù)中，該架構(gòu)在RULER基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)于同參數(shù)量MoE模型。其淺層部署的記憶模塊能夠處理局部依賴和靜態(tài)知識(shí)存儲(chǔ)，為注意力機(jī)制釋放更多容量用于全局推理。即使卸載1000億參數(shù)的記憶表，H800推理吞吐量降幅也不足3%。研究還發(fā)現(xiàn)，增加記憶槽位數(shù)量可持續(xù)降低驗(yàn)證損失，為大模型性能提升提供了可預(yù)測(cè)的擴(kuò)展路徑。

程信在Engram機(jī)制研發(fā)過(guò)程中發(fā)揮關(guān)鍵作用。剛加入DeepSeek時(shí)，他參與R1模型參數(shù)優(yōu)化工作，因在高效參數(shù)化方法上的獨(dú)到見(jiàn)解被納入核心團(tuán)隊(duì)。在研發(fā)初期，團(tuán)隊(duì)面臨記憶模塊與主干網(wǎng)絡(luò)適配難題，程信結(jié)合研究方向提出分詞器壓縮與上下文感知門(mén)控結(jié)合的方案。他連續(xù)兩周在實(shí)驗(yàn)室調(diào)整參數(shù)、驗(yàn)證效果，最終解決了靜態(tài)記憶缺乏上下文適應(yīng)性的關(guān)鍵問(wèn)題。

程信的成長(zhǎng)軌跡反映了DeepSeek與高校聯(lián)合培養(yǎng)模式的成效。據(jù)公開(kāi)報(bào)道，該企業(yè)長(zhǎng)期與北大、清華等高校開(kāi)展人才聯(lián)合培養(yǎng)計(jì)劃，程信正是通過(guò)這一計(jì)劃進(jìn)入企業(yè)實(shí)習(xí)。目前，DeepSeek核心研發(fā)團(tuán)隊(duì)中，三成成員來(lái)自高校實(shí)習(xí)轉(zhuǎn)正的年輕人才。這種校企協(xié)同模式使青年科研人員在學(xué)術(shù)研究與工程落地結(jié)合中快速成長(zhǎng)，成為推動(dòng)國(guó)產(chǎn)大模型創(chuàng)新的重要力量。

從工程落地角度看，Engram機(jī)制具有顯著優(yōu)勢(shì)。其記憶檢索完全依賴輸入token，實(shí)現(xiàn)了參數(shù)存儲(chǔ)與計(jì)算資源的解耦。訓(xùn)練時(shí)可將超大嵌入表分片至多張GPU，推理時(shí)能提前預(yù)取數(shù)據(jù)避免GPU停頓。基于自然語(yǔ)言的Zipf分布特性，該機(jī)制采用多級(jí)緩存策略，高頻嵌入存于GPU或主機(jī)內(nèi)存，低頻嵌入置于SSD，可輕松擴(kuò)展至超大規(guī)模記憶。

DeepSeek在論文中明確表示，條件記憶將成為下一代稀疏模型的核心建模原語(yǔ)。目前，Engram的論文和項(xiàng)目已完全開(kāi)源，開(kāi)發(fā)者可通過(guò)GitHub獲取相關(guān)資料。這一開(kāi)放舉措展現(xiàn)了國(guó)產(chǎn)大模型在核心技術(shù)領(lǐng)域的自信，有望吸引更多力量參與生態(tài)建設(shè)。

更多>同類內(nèi)容

DeepSeek新機(jī)制Engram亮相 實(shí)習(xí)生擔(dān)綱 國(guó)產(chǎn)大模型創(chuàng)新與人才雙突破

DeepSeek新機(jī)制Engram亮相實(shí)習(xí)生擔(dān)綱國(guó)產(chǎn)大模型創(chuàng)新與人才雙突破