在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

馬斯克盛贊Kimi新突破!大模型底層架構(gòu)迎來十年未有之變局

   發(fā)布時(shí)間:2026-03-18 18:56 作者:胡穎

在人工智能領(lǐng)域,底層架構(gòu)的創(chuàng)新往往比上層應(yīng)用的優(yōu)化更具顛覆性。月之暗面Kimi團(tuán)隊(duì)近期發(fā)布的技術(shù)報(bào)告《Attention Residuals》(注意力殘差),通過重構(gòu)殘差連接機(jī)制,在同等算力下將模型訓(xùn)練效率提升至傳統(tǒng)方法的1.25倍,這項(xiàng)突破性成果引發(fā)了硅谷頂尖AI專家的廣泛關(guān)注。OpenAI前核心成員Jerry Tworek甚至將其譽(yù)為"深度學(xué)習(xí)2.0的開端",認(rèn)為這項(xiàng)研究標(biāo)志著基礎(chǔ)范式變革的起點(diǎn)。

傳統(tǒng)大模型普遍采用殘差連接結(jié)構(gòu),這種自2015年ResNet論文提出的設(shè)計(jì),通過保留原始輸入的"直通道"解決了深層網(wǎng)絡(luò)訓(xùn)練難題。但Kimi團(tuán)隊(duì)發(fā)現(xiàn),這種等權(quán)疊加所有層輸出的方式存在根本性缺陷:隨著網(wǎng)絡(luò)深度增加,中間層的貢獻(xiàn)會(huì)被后續(xù)層的信息稀釋,導(dǎo)致大量計(jì)算資源浪費(fèi)在無效訓(xùn)練上。實(shí)驗(yàn)數(shù)據(jù)顯示,現(xiàn)有模型中超過30%的神經(jīng)網(wǎng)絡(luò)層對最終效果影響微乎其微。

研究團(tuán)隊(duì)通過數(shù)學(xué)推導(dǎo)發(fā)現(xiàn),殘差連接在深度方向的信息聚合問題,與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)在時(shí)間方向的信息衰減具有相同的數(shù)學(xué)結(jié)構(gòu)?;谶@個(gè)洞察,他們創(chuàng)造性地將Transformer的注意力機(jī)制從序列維度旋轉(zhuǎn)90度,應(yīng)用到網(wǎng)絡(luò)深度維度。新設(shè)計(jì)的AttnRes模塊為每層配備動(dòng)態(tài)查詢向量,使模型能夠自主選擇需要參考的前序?qū)有畔?,就像為每個(gè)神經(jīng)網(wǎng)絡(luò)層配備了智能信息篩選器。

在工程實(shí)現(xiàn)上,團(tuán)隊(duì)采用分塊注意力機(jī)制(Block AttnRes)解決大規(guī)模訓(xùn)練的內(nèi)存瓶頸。通過將128層網(wǎng)絡(luò)劃分為8個(gè)計(jì)算塊,在塊間使用注意力機(jī)制、塊內(nèi)保留傳統(tǒng)殘差連接,既保證了效果又控制了計(jì)算開銷。測試表明,這種設(shè)計(jì)在480億參數(shù)模型上僅增加4%訓(xùn)練成本,就實(shí)現(xiàn)了驗(yàn)證損失顯著下降。在博士級(jí)科學(xué)推理GPQA-Diamond基準(zhǔn)測試中,新模型準(zhǔn)確率提升7.5%,數(shù)學(xué)解題能力提升3.6%,代碼生成質(zhì)量提升3.1%。

這項(xiàng)突破的深層意義在于改變了模型架構(gòu)的設(shè)計(jì)范式。傳統(tǒng)模型偏好"寬而淺"的結(jié)構(gòu),而AttnRes技術(shù)使"窄而深"的架構(gòu)成為更優(yōu)選擇??梢暬治鲲@示,新模型訓(xùn)練過程中各層梯度分布更加均勻,有效解決了PreNorm結(jié)構(gòu)中后期層數(shù)值爆炸的問題。更值得關(guān)注的是,這種信息聚合方式的變革為跨模態(tài)訓(xùn)練開辟了新路徑,Kimi團(tuán)隊(duì)同期發(fā)布的Vision RL技術(shù)就通過類似機(jī)制,使純文本模型在視覺任務(wù)上的表現(xiàn)提升2.1%。

Kimi團(tuán)隊(duì)同步披露的系列創(chuàng)新顯示,這場底層技術(shù)革命正在全面展開。他們研發(fā)的MuonClip優(yōu)化器將計(jì)算效率提升至AdamW的兩倍,Kimi Linear架構(gòu)在超長上下文處理中實(shí)現(xiàn)5-6倍解碼加速。這些突破共同構(gòu)成了"Token效率×長上下文×智能體協(xié)作"的三維Scaling框架,標(biāo)志著大模型發(fā)展從資源堆砌轉(zhuǎn)向效率革命的新階段。正如研究團(tuán)隊(duì)在GitHub開源頁面所強(qiáng)調(diào)的:"當(dāng)別人忙著給通天塔添磚加瓦時(shí),我們選擇重新夯實(shí)地基。"

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容