在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

上海萬(wàn)卡GPU集群:以超高可用性與多元算力,為AI大模型注入強(qiáng)勁動(dòng)能

   發(fā)布時(shí)間:2026-04-06 19:29 作者:唐云澤

在上海松江的儀電智算中心,巨大的機(jī)房?jī)?nèi),上萬(wàn)張GPU設(shè)備整齊排列,伴隨著持續(xù)的風(fēng)扇轟鳴聲,它們與高速網(wǎng)絡(luò)線纜共同構(gòu)建起一張龐大的算力網(wǎng)絡(luò)。每張芯片每秒可完成數(shù)十萬(wàn)億次運(yùn)算,僅需兩天時(shí)間,這些芯片匯聚的計(jì)算能量便足以媲美三峽水電站一臺(tái)機(jī)組一小時(shí)的發(fā)電量,彰顯出算力在人工智能發(fā)展中的核心地位。

要讓如此龐大的GPU集群高效協(xié)同運(yùn)轉(zhuǎn),絕非易事。上海儀電旗下的智算科技團(tuán)隊(duì),憑借著卓越的技術(shù)實(shí)力,成功實(shí)現(xiàn)了集群99.99%的超高可用性,這意味著全年總故障時(shí)間被壓縮至1小時(shí)以內(nèi)。這一突破,為AI大模型的訓(xùn)練提供了堅(jiān)實(shí)的算力保障,避免了因算力中斷可能帶來(lái)的巨大損失。

智算科技董事長(zhǎng)孫躍表示,算力集群的搭建遠(yuǎn)非簡(jiǎn)單的加速卡堆疊,它需要復(fù)雜的高速網(wǎng)絡(luò)和強(qiáng)大的調(diào)度軟件作為支撐。他比喻道,算力集群與AI大模型的關(guān)系,就如同電與發(fā)電機(jī)一般,缺一不可。要讓近萬(wàn)張算力芯片通過(guò)高效的通訊網(wǎng)絡(luò)和存儲(chǔ)設(shè)備,像一臺(tái)電腦一樣整體高效運(yùn)轉(zhuǎn),其難度可想而知。而更難的是,這個(gè)由1萬(wàn)張卡組成的集群,還需7×24小時(shí)不間斷地提供算力服務(wù)。

面對(duì)萬(wàn)卡級(jí)GPU集群穩(wěn)定運(yùn)行的挑戰(zhàn),智算科技團(tuán)隊(duì)展現(xiàn)出了非凡的戰(zhàn)斗力。這支平均年齡僅32歲的團(tuán)隊(duì),曾連續(xù)79天駐守機(jī)房,為了0.1%的性能提升,他們?nèi)找箠^戰(zhàn),反復(fù)打磨代碼。在緊急任務(wù)面前,他們打破常規(guī),采用“并行施工+邊測(cè)邊調(diào)”的方式,搶抓每一秒進(jìn)度。正是這樣的努力,讓他們成功攻克了萬(wàn)卡級(jí)GPU集群穩(wěn)定運(yùn)行的難題。

除了穩(wěn)定運(yùn)行,智算科技還在融合異構(gòu)芯片方面取得了顯著成果。他們的萬(wàn)卡集群已成功適配多種國(guó)產(chǎn)算力卡,實(shí)現(xiàn)了多元異構(gòu)算力的融合與優(yōu)化調(diào)度。孫躍介紹,不同業(yè)務(wù)、不同行業(yè)對(duì)芯片的需求各不相同,而各類國(guó)產(chǎn)算力芯片在細(xì)分領(lǐng)域也各具優(yōu)勢(shì)。通過(guò)異構(gòu)算力的融合,他們成功將國(guó)產(chǎn)算力用起來(lái),滿足了不同垂類客戶對(duì)算力基礎(chǔ)設(shè)施的差異化需求。

目前,智算科技的萬(wàn)卡集群使用率已接近100%,基本實(shí)現(xiàn)了建成即滿負(fù)荷運(yùn)轉(zhuǎn)。在某新型科研機(jī)構(gòu)項(xiàng)目中,他們僅用一周時(shí)間便完成了近千卡集群的建設(shè)與交付,隨后又成功部署了萬(wàn)卡集群算力,為國(guó)家重點(diǎn)科研任務(wù)的推進(jìn)提供了有力保障。他們還首創(chuàng)了“動(dòng)態(tài)感知調(diào)度方案”,使訓(xùn)練效率提升了91%,每年為國(guó)家節(jié)省的算力成本相當(dāng)于新建3個(gè)數(shù)據(jù)中心。

在“算電協(xié)同”成為國(guó)家級(jí)戰(zhàn)略性新基建工程的背景下,智算科技也在積極探索這一領(lǐng)域。孫躍透露,他們?cè)诨A(chǔ)設(shè)施和機(jī)房建設(shè)過(guò)程中,進(jìn)一步擴(kuò)大了綠電的使用比例,并通過(guò)液冷集群提高了能源使用效率,降低了PUE值。同時(shí),他們還在與上下游合作伙伴進(jìn)行探索,如結(jié)合淞滬地區(qū)海上風(fēng)電資源,實(shí)現(xiàn)風(fēng)電直接驅(qū)動(dòng)的海底數(shù)據(jù)中心,以降低算力成本。

隨著新一代人工智能的快速發(fā)展,算力需求持續(xù)激增。孫躍表示,上海儀電將一方面提高算力基礎(chǔ)設(shè)施的建設(shè)效率和使用效率,另一方面打造開放、靈活、彈性的智算云服務(wù)平臺(tái)。他們發(fā)布的智算平臺(tái)YI CLOUD,旨在面向各類不同領(lǐng)域的用戶提供更普惠、更便捷的算力服務(wù)。這種服務(wù)不僅提供算力,還包括行業(yè)所需的語(yǔ)料、模型、智能體等能力的適配,幫助用戶在單一垂直領(lǐng)域更高效地使用算力。

上海儀電還在生態(tài)建設(shè)上發(fā)力。作為一家平臺(tái)型的鏈主企業(yè),他們希望發(fā)揮生態(tài)鏈接的作用,牽引產(chǎn)業(yè)鏈上下游軟硬件廠商,包括GPU企業(yè)、網(wǎng)絡(luò)通訊、模型企業(yè)、智能體企業(yè)等,共同實(shí)現(xiàn)國(guó)產(chǎn)算力生態(tài)協(xié)同的創(chuàng)新方案,以賦能國(guó)產(chǎn)大模型以及相關(guān)AI+應(yīng)用。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容