在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

馬斯克等大佬點贊!Kimi 論文革新殘差連接,或開啟深度學習新篇

   發(fā)布時間:2026-03-18 21:40 作者:孫明

當全球AI領域還在圍繞注意力機制、混合專家模型(MoE)等上層架構(gòu)展開激烈競爭時,一支中國團隊將突破口對準了深度學習最基礎的組件——殘差連接。月之暗面Kimi團隊發(fā)布的《Attention Residuals》技術報告,通過數(shù)學推導與工程創(chuàng)新,在保持算力不變的情況下,使模型訓練效果達到傳統(tǒng)方法1.25倍算力投入的水準,這項成果不僅獲得馬斯克、OpenAI核心成員等硅谷頂尖人物的公開認可,更被視為深度學習范式轉(zhuǎn)型的關鍵信號。

自2015年ResNet論文提出殘差連接以來,這項技術始終是現(xiàn)代神經(jīng)網(wǎng)絡的核心支柱。其通過在每層網(wǎng)絡中增設"直通通道",使梯度能夠繞過中間變換直接反向傳播,解決了深層網(wǎng)絡訓練中的梯度消失難題。然而這種"無差別等權疊加"的信息聚合方式,導致模型越深時底層貢獻越微弱,形成所謂的PreNorm稀釋效應——已有研究顯示,部分大模型中超過30%的中間層對最終效果影響可忽略不計。

Kimi團隊的突破源于對注意力機制的深度類比。他們發(fā)現(xiàn)殘差連接在深度方向的信息傳遞問題,與循環(huán)神經(jīng)網(wǎng)絡(RNN)在時間方向的信息遺忘具有相同的數(shù)學結(jié)構(gòu)。通過將注意力機制從處理序列的橫向維度,旋轉(zhuǎn)90度應用于網(wǎng)絡深度的縱向維度,創(chuàng)新性地提出"深度方向注意力":每層網(wǎng)絡配備可學習的查詢向量,根據(jù)任務需求動態(tài)選擇需要參考的前序?qū)有畔ⅲ瑢崿F(xiàn)信息聚合的精細化控制。

這項被命名為AttnRes的技術實現(xiàn)極具工程智慧。為避免全量連接帶來的內(nèi)存爆炸問題,團隊開發(fā)出Block AttnRes架構(gòu),將網(wǎng)絡劃分為若干模塊,模塊內(nèi)部保留傳統(tǒng)殘差連接,模塊間采用注意力機制進行信息交互。配合跨階段緩存機制與兩階段計算策略,在480億參數(shù)規(guī)模的實驗中,訓練開銷增幅控制在4%以內(nèi),推理延遲增加不超過2%,卻實現(xiàn)了驗證損失的持續(xù)降低。

實驗數(shù)據(jù)顯示,采用AttnRes的模型在15項主流基準測試中全面持平或超越基線,尤其在博士級科學推理(GPQA-Diamond)任務中提升7.5%,數(shù)學解題(Math)與代碼生成(Humaneval)分別提升3.6%與3.1%。可視化分析揭示,新架構(gòu)使各層梯度分布更均勻,既保持了局部信息傳遞的主導性,又形成了跨層的長程依賴關系,這種特性使模型在參數(shù)規(guī)模擴大時仍能保持性能增益。

這項突破引發(fā)的連鎖反應正在顯現(xiàn)。在GTC 2026演講中,Kimi創(chuàng)始人楊植麟披露了系列底層技術創(chuàng)新:MuonClip優(yōu)化器將計算效率提升至AdamW的兩倍,Kimi Linear架構(gòu)實現(xiàn)超長上下文5-6倍解碼加速,跨模態(tài)訓練甚至提升了純文本任務的性能。這些進展共同勾勒出"Token效率×長上下文×智能體協(xié)作"的三維Scaling框架,標志著深度學習進入資源利用效率與系統(tǒng)復雜度協(xié)同提升的新階段。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容