在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

馬斯克點(diǎn)贊Kimi:十一年未變的深度學(xué)習(xí)基石組件迎來新突破

   發(fā)布時(shí)間:2026-03-17 12:59 作者:楊凌霄

科技領(lǐng)域近日迎來一則備受矚目的消息:特斯拉與SpaceX創(chuàng)始人埃隆·馬斯克,在社交平臺(tái)X上對(duì)一家中國(guó)AI公司月之暗面的技術(shù)成果公開點(diǎn)贊,稱其“做出了令人印象深刻的結(jié)果”。這一表態(tài)在AI圈引發(fā)廣泛關(guān)注,畢竟馬斯克向來以在AI領(lǐng)域觀點(diǎn)犀利、要求嚴(yán)苛著稱,此前沒少批評(píng)Anthropic和OpenAI,甚至曾直言Anthropic的圖標(biāo)設(shè)計(jì)不妥。

馬斯克此次點(diǎn)贊的并非模型,而是月之暗面團(tuán)隊(duì)提出的一種全新架構(gòu)改進(jìn)方式?,F(xiàn)代大語(yǔ)言模型,無論是GPT、Claude,還是國(guó)內(nèi)的豆包、DeepSeek,以及月之暗面自家的K2.5,底層架構(gòu)都基于Transformer。而Transformer能訓(xùn)練到幾十層甚至上百層不崩潰,得益于“殘差連接”機(jī)制。該機(jī)制由何愷明在2015年參與的ResNet論文提出,后被Transformer沿用。其原理是每一層網(wǎng)絡(luò)計(jì)算后,將輸出與輸入相加傳至下一層,如此梯度在反向傳播時(shí)可直達(dá)底層,避免因?qū)訑?shù)過深而消失。

然而,這種“加法”存在一定問題。不同層輸出的信息在最終隱藏狀態(tài)中權(quán)重相同,隨著層數(shù)增加,早期層信息被稀釋,后面層需輸出更大數(shù)值才能產(chǎn)生影響,進(jìn)而加劇不穩(wěn)定性,這一現(xiàn)象被稱為“PreNorm稀釋”。月之暗面團(tuán)隊(duì)發(fā)現(xiàn),這一問題與早年RNN面臨的困境有結(jié)構(gòu)上的對(duì)稱性。RNN在時(shí)間維度上做固定權(quán)重累加,長(zhǎng)距離依賴難以捕捉,Transformer用注意力機(jī)制替代其線性累加,解決了該問題。但在深度維度上,同樣的問題卻一直未得到解決。

月之暗面團(tuán)隊(duì)認(rèn)為,標(biāo)準(zhǔn)殘差連接本質(zhì)是“深度維度上的線性注意力”,他們計(jì)劃將其升級(jí)為“深度維度上的softmax注意力”,并提出了“理想版”方案——全注意力殘差。具體做法是給每一層賦予可學(xué)習(xí)的查詢向量,對(duì)之前所有層輸出做注意力計(jì)算,產(chǎn)生歸一化權(quán)重,當(dāng)前層輸入按此權(quán)重加權(quán)組合,不同token經(jīng)過同一層時(shí)可從不同歷史層提取信息。但這一方案在大規(guī)模訓(xùn)練時(shí)存在內(nèi)存和通信開銷過大的問題,因?yàn)樾枰鎯?chǔ)和傳遞所有層輸出。

為解決這一問題,團(tuán)隊(duì)又提出塊注意力殘差方案。他們將所有層分成若干塊,塊內(nèi)用傳統(tǒng)殘差連接求和,塊間用注意力機(jī)制選擇性聚合。這樣只需存儲(chǔ)和傳輸每個(gè)塊的匯總表示,內(nèi)存占用大幅降低。在此基礎(chǔ)上,團(tuán)隊(duì)還進(jìn)行了一系列工程優(yōu)化,如跨階段緩存消除流水線并行中的冗余傳輸,兩階段推理策略分?jǐn)偪鐗K注意力計(jì)算。最終,注意力殘差作為標(biāo)準(zhǔn)殘差連接的替代品,訓(xùn)練額外開銷小,推理延遲增加不到2%。

團(tuán)隊(duì)通過兩個(gè)實(shí)驗(yàn)驗(yàn)證這一改進(jìn)的效果。在scaling law實(shí)驗(yàn)中,結(jié)果顯示注意力在所有計(jì)算預(yù)算下都優(yōu)于基線,效果相當(dāng)于用1.25倍計(jì)算量訓(xùn)練出的基線模型。在實(shí)戰(zhàn)驗(yàn)證中,團(tuán)隊(duì)用480億參數(shù)的大模型,用超一萬(wàn)億個(gè)詞的數(shù)據(jù)進(jìn)行完整預(yù)訓(xùn)練,在科學(xué)問答、數(shù)學(xué)推理、代碼生成、綜合知識(shí)等測(cè)試中,加了塊注意力殘差的版本全面超越未加的版本。訓(xùn)練動(dòng)態(tài)分析也表明,塊注意力殘差緩解了PreNorm稀釋問題,各層輸出幅度穩(wěn)定,梯度分布均勻。

論文還通過統(tǒng)一的結(jié)構(gòu)化矩陣分析證明,標(biāo)準(zhǔn)殘差連接及其變體本質(zhì)都是深度維度上線性注意力的特例。自2015年ResNet以來,殘差連接板塊無實(shí)質(zhì)性變化,而月之暗面的這篇論文是首個(gè)既有理論依據(jù),又能大規(guī)模實(shí)際部署且低成本的方案,這也是馬斯克點(diǎn)贊的原因。

月之暗面目前正處于上市前的關(guān)鍵階段,融資進(jìn)展順利。2025年12月底完成5億美元C輪融資,投后估值43億美元;兩個(gè)月后完成超7億美元C+輪融資,投后估值突破100億美元;3月中最新投前估值上升至180億美元,新一輪10億美元融資正在推進(jìn),3個(gè)月內(nèi)估值增長(zhǎng)超4倍。其Kimi K2.5模型發(fā)布不到一個(gè)月,累計(jì)收入就超過2025年全年總收入,個(gè)人訂閱用戶支付訂單數(shù)在1月環(huán)比增長(zhǎng)8280%,2月又環(huán)比增長(zhǎng)123.8%,進(jìn)入Stripe全球榜單前十。

不過,月之暗面也面臨一些爭(zhēng)議。幾天前,OpenClaw創(chuàng)始人彼得·斯坦伯格公開質(zhì)疑月之暗面的Kimi Claw產(chǎn)品。月之暗面此前推出OpenClaw的云端一鍵部署服務(wù)Kimi Claw,其邏輯與OpenClaw“本地優(yōu)先”的設(shè)計(jì)理念相悖。OpenClaw的agent運(yùn)行在用戶設(shè)備上,數(shù)據(jù)不經(jīng)過第三方,大模型僅提供操作指令。而Kimi Claw將數(shù)據(jù)搬到云端服務(wù)器,在安全和隱私層面風(fēng)險(xiǎn)不同。斯坦伯格的質(zhì)疑在社區(qū)產(chǎn)生實(shí)際影響,最初詢問的用戶表示鑒于安全性問題,暫時(shí)不會(huì)使用該產(chǎn)品。

此時(shí)馬斯克的點(diǎn)贊恰逢其時(shí),在輿論場(chǎng)上,OpenClaw創(chuàng)始人的質(zhì)疑與馬斯克的認(rèn)可形成鮮明對(duì)比。對(duì)于正在融資的月之暗面而言,馬斯克的認(rèn)可無疑極具分量,盡管不能過度解讀其一條推文,但這一表態(tài)還是讓更多人開始關(guān)注這篇論文,一個(gè)十一年未被觸動(dòng)的組件被重新審視,后續(xù)發(fā)展值得期待。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容