在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

17歲高三生領(lǐng)銜Kimi團隊創(chuàng)新架構(gòu),馬斯克點贊,AI界迎來新星力量

   發(fā)布時間:2026-03-23 09:27 作者:胡穎

中國人工智能領(lǐng)域迎來突破性進展——月之暗面(Moonshot AI)團隊提出的"注意力殘差"(Attention Residuals)架構(gòu)引發(fā)全球關(guān)注。這項發(fā)表于GitHub的技術(shù)成果,通過重構(gòu)Transformer模型的信息流動機制,使480億參數(shù)模型訓(xùn)練效率提升1.25倍,被特斯拉CEO埃隆·馬斯克評價為"令人印象深刻的工作"。該研究的核心創(chuàng)新在于引入動態(tài)注意力機制,取代傳統(tǒng)殘差連接中固定的權(quán)重累加方式,使神經(jīng)網(wǎng)絡(luò)能夠根據(jù)輸入內(nèi)容選擇性聚合歷史層信息。

論文第一作者陳廣宇的履歷同樣引發(fā)震動。這位來自深圳國際學(xué)校的17歲高三學(xué)生,在加入月之暗面僅5個月后,便以核心成員身份參與這項顛覆性研究。其社交媒體顯示,這位同時擁有美國計算機奧林匹克競賽鉑金組經(jīng)歷和Kimi內(nèi)部黑客馬拉松冠軍的少年,目前擔(dān)任機器學(xué)習(xí)研究員,直接參與中國頂尖開源大模型的核心架構(gòu)開發(fā)。研究團隊特別澄清,論文前三位作者貢獻相當,陳廣宇強調(diào)這是集體智慧的結(jié)晶。

這項被命名為AttnRes的新架構(gòu),通過引入輸入依賴的softmax注意力機制,實現(xiàn)了深度維度上的范式轉(zhuǎn)變。傳統(tǒng)模型采用線性累加方式處理各層輸出,而新方法允許每層動態(tài)檢索歷史信息,形成類似自注意力的聚合模式。技術(shù)驗證顯示,該架構(gòu)在Kimi Linear模型中表現(xiàn)優(yōu)異,特別在處理長序列依賴時展現(xiàn)出顯著優(yōu)勢。行業(yè)分析師指出,這項突破可能重新定義大模型的基礎(chǔ)架構(gòu)標準。

月之暗面作為2023年成立的AI新銳,由清華大學(xué)校友楊植麟領(lǐng)銜創(chuàng)立,其開發(fā)的Kimi大模型已在國際基準測試中多次比肩GPT-4等頭部模型,被業(yè)界譽為中國"AI四小虎"之一。陳廣宇的雙重身份——在校學(xué)生與頂尖研究員——創(chuàng)造了AI領(lǐng)域的新紀錄。這位預(yù)計今年畢業(yè)的天才少年,此前已入選羅德信托全球未來領(lǐng)袖計劃,并在美國Tilde Research實驗室完成AI研究項目,其成長軌跡引發(fā)教育界對人才培養(yǎng)模式的重新思考。

研究團隊公布的實驗數(shù)據(jù)顯示,采用AttnRes架構(gòu)的模型在保持精度的同時,顯著降低了計算資源消耗。這種效率提升在訓(xùn)練超大規(guī)模模型時尤為重要,可能為AI基礎(chǔ)設(shè)施建設(shè)提供新的優(yōu)化路徑。目前,相關(guān)代碼已在GitHub開源,全球開發(fā)者可自由訪問技術(shù)細節(jié)。陳廣宇表示,團隊正在探索該架構(gòu)在多模態(tài)學(xué)習(xí)等領(lǐng)域的應(yīng)用潛力,期待與全球研究者共同推進技術(shù)邊界。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容