在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

DeepSeek V4參數(shù)量或創(chuàng)新高 1.6T預(yù)期下性能蛻變引期待

   發(fā)布時(shí)間:2026-04-17 23:42 作者:顧雨柔

近日,科技圈因DeepSeek公司研究人員對(duì)DeepGEMM算子庫(kù)的更新而掀起熱議。此次更新被外界視為DeepSeek V4大模型即將發(fā)布的重要信號(hào),盡管研究人員隨后澄清此次更新僅與DeepGEMM開發(fā)相關(guān),與內(nèi)部模型發(fā)布并無關(guān)聯(lián),但這一聲明反而進(jìn)一步激發(fā)了公眾對(duì)V4大模型的好奇與期待。

DeepGEMM算子庫(kù)此次更新亮點(diǎn)頗多,不僅支持了FP8_FP4混合算子,還優(yōu)化了對(duì)NVIDIA Blackwell架構(gòu)的支持。更引人注目的是,其架構(gòu)升級(jí)引入了Mega MoE及HyperConnection技術(shù)。其中,Mega MoE被視為MoE架構(gòu)的一次重大革新,有望帶來顯著的性能提升。

據(jù)Gemini的解析暗示,DeepSeek V4大模型的激活專家數(shù)量將遠(yuǎn)超V3的256個(gè),可能達(dá)到數(shù)千個(gè)。這一提升不僅將極大地增強(qiáng)模型的性能,還能保持靈活性,避免對(duì)算力和顯存產(chǎn)生過高需求。這一特性使得V4大模型在處理復(fù)雜任務(wù)時(shí)更具優(yōu)勢(shì),成為業(yè)界關(guān)注的焦點(diǎn)。

除了架構(gòu)升級(jí),DeepGEMM的更新還為外界提供了關(guān)于V4大模型參數(shù)量的線索。網(wǎng)友根據(jù)更新內(nèi)容推測(cè),單層MoE的參數(shù)量約為25.37B。若按60層計(jì)算,V4大模型的參數(shù)量可能達(dá)到1.6T;即使按48層計(jì)算,參數(shù)量也至少為1.25T。這一數(shù)據(jù)遠(yuǎn)超此前關(guān)于V4為1T萬億參數(shù)的傳聞,顯示出其性能表現(xiàn)可能超出預(yù)期。

若V4大模型最終實(shí)現(xiàn)1.6T參數(shù)量,其性能將比預(yù)期提升60%,無疑將成為科技領(lǐng)域的一大亮點(diǎn)。即便未能達(dá)到這一目標(biāo),1.25T的參數(shù)量也意味著其性能將比當(dāng)前V3的6700億參數(shù)量翻倍。結(jié)合Mega MoE技術(shù)帶來的數(shù)千個(gè)激活專家,V4大模型有望成為MoE架構(gòu)大模型發(fā)展中的里程碑事件,推動(dòng)整個(gè)行業(yè)向前邁進(jìn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容