日韩精品极品视频在线观看免费,国产亚洲欧美日本一二三本道

馬斯克盛贊Kimi新突破！大模型底層架構(gòu)迎來十年未有之變局

發(fā)布時(shí)間：2026-03-18 18:56 來源：快訊作者：胡穎

在人工智能領(lǐng)域，底層架構(gòu)的創(chuàng)新往往比上層應(yīng)用的優(yōu)化更具顛覆性。月之暗面Kimi團(tuán)隊(duì)近期發(fā)布的技術(shù)報(bào)告《Attention Residuals》（注意力殘差），通過重構(gòu)殘差連接機(jī)制，在同等算力下將模型訓(xùn)練效率提升至傳統(tǒng)方法的1.25倍，這項(xiàng)突破性成果引發(fā)了硅谷頂尖AI專家的廣泛關(guān)注。OpenAI前核心成員Jerry Tworek甚至將其譽(yù)為"深度學(xué)習(xí)2.0的開端"，認(rèn)為這項(xiàng)研究標(biāo)志著基礎(chǔ)范式變革的起點(diǎn)。

傳統(tǒng)大模型普遍采用殘差連接結(jié)構(gòu)，這種自2015年ResNet論文提出的設(shè)計(jì)，通過保留原始輸入的"直通道"解決了深層網(wǎng)絡(luò)訓(xùn)練難題。但Kimi團(tuán)隊(duì)發(fā)現(xiàn)，這種等權(quán)疊加所有層輸出的方式存在根本性缺陷：隨著網(wǎng)絡(luò)深度增加，中間層的貢獻(xiàn)會(huì)被后續(xù)層的信息稀釋，導(dǎo)致大量計(jì)算資源浪費(fèi)在無效訓(xùn)練上。實(shí)驗(yàn)數(shù)據(jù)顯示，現(xiàn)有模型中超過30%的神經(jīng)網(wǎng)絡(luò)層對最終效果影響微乎其微。

研究團(tuán)隊(duì)通過數(shù)學(xué)推導(dǎo)發(fā)現(xiàn)，殘差連接在深度方向的信息聚合問題，與循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）在時(shí)間方向的信息衰減具有相同的數(shù)學(xué)結(jié)構(gòu)?；谶@個(gè)洞察，他們創(chuàng)造性地將Transformer的注意力機(jī)制從序列維度旋轉(zhuǎn)90度，應(yīng)用到網(wǎng)絡(luò)深度維度。新設(shè)計(jì)的AttnRes模塊為每層配備動(dòng)態(tài)查詢向量，使模型能夠自主選擇需要參考的前序?qū)有畔?，就像為每個(gè)神經(jīng)網(wǎng)絡(luò)層配備了智能信息篩選器。

在工程實(shí)現(xiàn)上，團(tuán)隊(duì)采用分塊注意力機(jī)制（Block AttnRes）解決大規(guī)模訓(xùn)練的內(nèi)存瓶頸。通過將128層網(wǎng)絡(luò)劃分為8個(gè)計(jì)算塊，在塊間使用注意力機(jī)制、塊內(nèi)保留傳統(tǒng)殘差連接，既保證了效果又控制了計(jì)算開銷。測試表明，這種設(shè)計(jì)在480億參數(shù)模型上僅增加4%訓(xùn)練成本，就實(shí)現(xiàn)了驗(yàn)證損失顯著下降。在博士級(jí)科學(xué)推理GPQA-Diamond基準(zhǔn)測試中，新模型準(zhǔn)確率提升7.5%，數(shù)學(xué)解題能力提升3.6%，代碼生成質(zhì)量提升3.1%。

這項(xiàng)突破的深層意義在于改變了模型架構(gòu)的設(shè)計(jì)范式。傳統(tǒng)模型偏好"寬而淺"的結(jié)構(gòu)，而AttnRes技術(shù)使"窄而深"的架構(gòu)成為更優(yōu)選擇?？梢暬治鲲@示，新模型訓(xùn)練過程中各層梯度分布更加均勻，有效解決了PreNorm結(jié)構(gòu)中后期層數(shù)值爆炸的問題。更值得關(guān)注的是，這種信息聚合方式的變革為跨模態(tài)訓(xùn)練開辟了新路徑，Kimi團(tuán)隊(duì)同期發(fā)布的Vision RL技術(shù)就通過類似機(jī)制，使純文本模型在視覺任務(wù)上的表現(xiàn)提升2.1%。

Kimi團(tuán)隊(duì)同步披露的系列創(chuàng)新顯示，這場底層技術(shù)革命正在全面展開。他們研發(fā)的MuonClip優(yōu)化器將計(jì)算效率提升至AdamW的兩倍，Kimi Linear架構(gòu)在超長上下文處理中實(shí)現(xiàn)5-6倍解碼加速。這些突破共同構(gòu)成了"Token效率×長上下文×智能體協(xié)作"的三維Scaling框架，標(biāo)志著大模型發(fā)展從資源堆砌轉(zhuǎn)向效率革命的新階段。正如研究團(tuán)隊(duì)在GitHub開源頁面所強(qiáng)調(diào)的："當(dāng)別人忙著給通天塔添磚加瓦時(shí)，我們選擇重新夯實(shí)地基。"

更多>同類內(nèi)容

馬斯克盛贊Kimi新突破！大模型底層架構(gòu)迎來十年未有之變局

馬斯克盛贊Kimi新突破！大模型底層架構(gòu)迎來十年未有之變局