在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

馬斯克點(diǎn)贊背后:Kimi挑戰(zhàn)11年未變組件,AI架構(gòu)迎新突破?

   發(fā)布時(shí)間:2026-03-17 16:31 作者:陳陽(yáng)

科技領(lǐng)域近日因一則動(dòng)態(tài)引發(fā)廣泛討論:特斯拉創(chuàng)始人馬斯克在社交平臺(tái)X上,對(duì)一家中國(guó)AI企業(yè)的技術(shù)成果公開表達(dá)贊賞。他評(píng)論稱“月之暗面團(tuán)隊(duì)做出了令人印象深刻的工作”,這一表態(tài)迅速引發(fā)行業(yè)關(guān)注。作為以直言不諱著稱的科技領(lǐng)袖,馬斯克此前曾多次批評(píng)OpenAI、Anthropic等機(jī)構(gòu),此次對(duì)中國(guó)團(tuán)隊(duì)的認(rèn)可顯得尤為特別。

引發(fā)關(guān)注的成果并非新模型,而是一篇聚焦底層架構(gòu)的技術(shù)論文。月之暗面團(tuán)隊(duì)提出用“注意力殘差”替代Transformer架構(gòu)中自2015年沿用至今的“殘差連接”機(jī)制。傳統(tǒng)殘差連接通過(guò)將各層輸出直接相加傳遞信息,但隨著模型深度增加,早期層的信息會(huì)被稀釋,導(dǎo)致訓(xùn)練不穩(wěn)定。這一設(shè)計(jì)雖被廣泛采用,卻始終存在理論缺陷。

研究團(tuán)隊(duì)從Transformer的注意力機(jī)制獲得靈感,提出讓模型動(dòng)態(tài)決定各層信息的權(quán)重。新方案通過(guò)可學(xué)習(xí)的查詢向量,對(duì)歷史層輸出進(jìn)行注意力計(jì)算,生成加權(quán)組合而非簡(jiǎn)單求和。這相當(dāng)于為模型配備“智能篩選器”,能根據(jù)輸入內(nèi)容選擇性地提取關(guān)鍵信息。實(shí)驗(yàn)數(shù)據(jù)顯示,采用該架構(gòu)的模型在科學(xué)問(wèn)答、數(shù)學(xué)推理等任務(wù)中表現(xiàn)顯著提升,且訓(xùn)練效率相當(dāng)于傳統(tǒng)方法1.25倍計(jì)算量的效果。

為解決大規(guī)模部署的內(nèi)存瓶頸,團(tuán)隊(duì)進(jìn)一步提出“塊注意力殘差”優(yōu)化方案。通過(guò)將模型分層分組,僅在組間應(yīng)用注意力機(jī)制,內(nèi)存占用降低90%以上,推理延遲增加不足2%。這種“分而治之”的策略,使理論創(chuàng)新成功轉(zhuǎn)化為工程實(shí)踐。論文通過(guò)統(tǒng)一的結(jié)構(gòu)化矩陣分析證明,此前所有殘差連接變體本質(zhì)上都是該方案的線性特例。

這項(xiàng)突破正值月之暗面融資關(guān)鍵期。2025年末至2026年初,該公司連續(xù)完成三輪融資,估值從43億美元飆升至180億美元。其K2.5模型發(fā)布首月收入即超2025全年總和,個(gè)人訂閱用戶支付訂單數(shù)連續(xù)兩月環(huán)比增長(zhǎng)超100倍,躋身全球支付平臺(tái)Stripe榜單前十。但高速發(fā)展也伴隨爭(zhēng)議——近期推出的云端部署服務(wù)Kimi Claw,因數(shù)據(jù)存儲(chǔ)方式與開源項(xiàng)目OpenClaw的“本地優(yōu)先”理念沖突,遭到該項(xiàng)目創(chuàng)始人公開質(zhì)疑。

馬斯克的點(diǎn)贊恰逢?duì)幾h發(fā)酵期,為這場(chǎng)討論增添新維度。盡管其表態(tài)未必涉及商業(yè)合作,但在資本市場(chǎng)敘事中,頂級(jí)科技領(lǐng)袖的認(rèn)可往往具有特殊分量。該論文發(fā)布后,原本聚焦應(yīng)用層的研究者開始重新審視底層架構(gòu)創(chuàng)新,這場(chǎng)持續(xù)十一年的技術(shù)組件革新,或?qū)⒁l(fā)行業(yè)連鎖反應(yīng)。目前,研究團(tuán)隊(duì)已開放代碼庫(kù),全球多個(gè)實(shí)驗(yàn)室正嘗試復(fù)現(xiàn)其實(shí)驗(yàn)結(jié)果。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容