伊人久久中文字幕av,亚洲精品无码永久在线观看你懂的

馬斯克點(diǎn)贊Kimi：十一年未變的深度學(xué)習(xí)基石組件迎來新突破

發(fā)布時(shí)間：2026-03-17 12:59 來源：天脈網(wǎng) 作者：楊凌霄

科技領(lǐng)域近日迎來一則備受矚目的消息：特斯拉與SpaceX創(chuàng)始人埃隆·馬斯克，在社交平臺(tái)X上對(duì)一家中國(guó)AI公司月之暗面的技術(shù)成果公開點(diǎn)贊，稱其“做出了令人印象深刻的結(jié)果”。這一表態(tài)在AI圈引發(fā)廣泛關(guān)注，畢竟馬斯克向來以在AI領(lǐng)域觀點(diǎn)犀利、要求嚴(yán)苛著稱，此前沒少批評(píng)Anthropic和OpenAI，甚至曾直言Anthropic的圖標(biāo)設(shè)計(jì)不妥。

馬斯克此次點(diǎn)贊的并非模型，而是月之暗面團(tuán)隊(duì)提出的一種全新架構(gòu)改進(jìn)方式?，F(xiàn)代大語(yǔ)言模型，無論是GPT、Claude，還是國(guó)內(nèi)的豆包、DeepSeek，以及月之暗面自家的K2.5，底層架構(gòu)都基于Transformer。而Transformer能訓(xùn)練到幾十層甚至上百層不崩潰，得益于“殘差連接”機(jī)制。該機(jī)制由何愷明在2015年參與的ResNet論文提出，后被Transformer沿用。其原理是每一層網(wǎng)絡(luò)計(jì)算后，將輸出與輸入相加傳至下一層，如此梯度在反向傳播時(shí)可直達(dá)底層，避免因?qū)訑?shù)過深而消失。

然而，這種“加法”存在一定問題。不同層輸出的信息在最終隱藏狀態(tài)中權(quán)重相同，隨著層數(shù)增加，早期層信息被稀釋，后面層需輸出更大數(shù)值才能產(chǎn)生影響，進(jìn)而加劇不穩(wěn)定性，這一現(xiàn)象被稱為“PreNorm稀釋”。月之暗面團(tuán)隊(duì)發(fā)現(xiàn)，這一問題與早年RNN面臨的困境有結(jié)構(gòu)上的對(duì)稱性。RNN在時(shí)間維度上做固定權(quán)重累加，長(zhǎng)距離依賴難以捕捉，Transformer用注意力機(jī)制替代其線性累加，解決了該問題。但在深度維度上，同樣的問題卻一直未得到解決。

月之暗面團(tuán)隊(duì)認(rèn)為，標(biāo)準(zhǔn)殘差連接本質(zhì)是“深度維度上的線性注意力”，他們計(jì)劃將其升級(jí)為“深度維度上的softmax注意力”，并提出了“理想版”方案——全注意力殘差。具體做法是給每一層賦予可學(xué)習(xí)的查詢向量，對(duì)之前所有層輸出做注意力計(jì)算，產(chǎn)生歸一化權(quán)重，當(dāng)前層輸入按此權(quán)重加權(quán)組合，不同token經(jīng)過同一層時(shí)可從不同歷史層提取信息。但這一方案在大規(guī)模訓(xùn)練時(shí)存在內(nèi)存和通信開銷過大的問題，因?yàn)樾枰鎯?chǔ)和傳遞所有層輸出。

為解決這一問題，團(tuán)隊(duì)又提出塊注意力殘差方案。他們將所有層分成若干塊，塊內(nèi)用傳統(tǒng)殘差連接求和，塊間用注意力機(jī)制選擇性聚合。這樣只需存儲(chǔ)和傳輸每個(gè)塊的匯總表示，內(nèi)存占用大幅降低。在此基礎(chǔ)上，團(tuán)隊(duì)還進(jìn)行了一系列工程優(yōu)化，如跨階段緩存消除流水線并行中的冗余傳輸，兩階段推理策略分?jǐn)偪鐗K注意力計(jì)算。最終，注意力殘差作為標(biāo)準(zhǔn)殘差連接的替代品，訓(xùn)練額外開銷小，推理延遲增加不到2%。

團(tuán)隊(duì)通過兩個(gè)實(shí)驗(yàn)驗(yàn)證這一改進(jìn)的效果。在scaling law實(shí)驗(yàn)中，結(jié)果顯示注意力在所有計(jì)算預(yù)算下都優(yōu)于基線，效果相當(dāng)于用1.25倍計(jì)算量訓(xùn)練出的基線模型。在實(shí)戰(zhàn)驗(yàn)證中，團(tuán)隊(duì)用480億參數(shù)的大模型，用超一萬(wàn)億個(gè)詞的數(shù)據(jù)進(jìn)行完整預(yù)訓(xùn)練，在科學(xué)問答、數(shù)學(xué)推理、代碼生成、綜合知識(shí)等測(cè)試中，加了塊注意力殘差的版本全面超越未加的版本。訓(xùn)練動(dòng)態(tài)分析也表明，塊注意力殘差緩解了PreNorm稀釋問題，各層輸出幅度穩(wěn)定，梯度分布均勻。

論文還通過統(tǒng)一的結(jié)構(gòu)化矩陣分析證明，標(biāo)準(zhǔn)殘差連接及其變體本質(zhì)都是深度維度上線性注意力的特例。自2015年ResNet以來，殘差連接板塊無實(shí)質(zhì)性變化，而月之暗面的這篇論文是首個(gè)既有理論依據(jù)，又能大規(guī)模實(shí)際部署且低成本的方案，這也是馬斯克點(diǎn)贊的原因。

月之暗面目前正處于上市前的關(guān)鍵階段，融資進(jìn)展順利。2025年12月底完成5億美元C輪融資，投后估值43億美元；兩個(gè)月后完成超7億美元C+輪融資，投后估值突破100億美元；3月中最新投前估值上升至180億美元，新一輪10億美元融資正在推進(jìn)，3個(gè)月內(nèi)估值增長(zhǎng)超4倍。其Kimi K2.5模型發(fā)布不到一個(gè)月，累計(jì)收入就超過2025年全年總收入，個(gè)人訂閱用戶支付訂單數(shù)在1月環(huán)比增長(zhǎng)8280%，2月又環(huán)比增長(zhǎng)123.8%，進(jìn)入Stripe全球榜單前十。

不過，月之暗面也面臨一些爭(zhēng)議。幾天前，OpenClaw創(chuàng)始人彼得·斯坦伯格公開質(zhì)疑月之暗面的Kimi Claw產(chǎn)品。月之暗面此前推出OpenClaw的云端一鍵部署服務(wù)Kimi Claw，其邏輯與OpenClaw“本地優(yōu)先”的設(shè)計(jì)理念相悖。OpenClaw的agent運(yùn)行在用戶設(shè)備上，數(shù)據(jù)不經(jīng)過第三方，大模型僅提供操作指令。而Kimi Claw將數(shù)據(jù)搬到云端服務(wù)器，在安全和隱私層面風(fēng)險(xiǎn)不同。斯坦伯格的質(zhì)疑在社區(qū)產(chǎn)生實(shí)際影響，最初詢問的用戶表示鑒于安全性問題，暫時(shí)不會(huì)使用該產(chǎn)品。

此時(shí)馬斯克的點(diǎn)贊恰逢其時(shí)，在輿論場(chǎng)上，OpenClaw創(chuàng)始人的質(zhì)疑與馬斯克的認(rèn)可形成鮮明對(duì)比。對(duì)于正在融資的月之暗面而言，馬斯克的認(rèn)可無疑極具分量，盡管不能過度解讀其一條推文，但這一表態(tài)還是讓更多人開始關(guān)注這篇論文，一個(gè)十一年未被觸動(dòng)的組件被重新審視，后續(xù)發(fā)展值得期待。

更多>同類內(nèi)容