在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

XSKY星辰天合:以智能分層存儲,賦能AI大模型高效訓(xùn)練與落地

   發(fā)布時間:2025-12-11 10:19 作者:蘇婉清

隨著大語言模型(LLM)和多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級攀升,AI技術(shù)對數(shù)據(jù)存儲的“性能-成本-效率”提出了前所未有的嚴(yán)苛要求。在AI全工作流中,從數(shù)據(jù)采集、清洗預(yù)處理、GPU高并發(fā)訓(xùn)練到模型推理,每個環(huán)節(jié)均需TB/s級帶寬與低延遲I/O支持。以大規(guī)模圖像識別項目為例,每日需采集數(shù)百萬張圖片,數(shù)據(jù)量可達(dá)數(shù)百GB甚至數(shù)TB,若存儲系統(tǒng)寫入帶寬不足,將直接拖慢采集進(jìn)度;在自然語言處理項目中,分詞、詞性標(biāo)注等預(yù)處理需頻繁讀取數(shù)據(jù),若讀取帶寬不足,處理效率將大打折扣;深度學(xué)習(xí)項目中,數(shù)千個GPU并行訓(xùn)練時,若存儲系統(tǒng)I/O延遲過高,GPU將因等待數(shù)據(jù)而閑置,造成資源浪費。同時,海量原始數(shù)據(jù)、中間數(shù)據(jù)和歸檔數(shù)據(jù)需長期保存,單一存儲介質(zhì)難以平衡高性能需求與成本控制,“全閃存+混閃”分層存儲已成為行業(yè)共識。

然而,傳統(tǒng)分層方案存在三大核心痛點,嚴(yán)重制約AI效率。其一,盲目流動問題突出。傳統(tǒng)方案基于數(shù)據(jù)創(chuàng)建時間(mtime)分層,導(dǎo)致高頻訪問的訓(xùn)練集可能因“到期”被降級至慢速混閃池,訓(xùn)練性能驟降。其二,割裂命名空間增加操作風(fēng)險。數(shù)據(jù)在不同存儲層間流動需手動切換路徑或掛載點,易因操作失誤導(dǎo)致訓(xùn)練失敗。其三,高昂隱性成本推高總擁有成本(TCO)。企業(yè)為避免性能問題,被迫將更多數(shù)據(jù)保留在全閃存層,或反復(fù)“搬運”降級數(shù)據(jù)回?zé)釋樱瑢?dǎo)致存儲采購成本和人力成本大幅增加。

某大型智算中心曾因開源方案缺乏智能分層能力,數(shù)據(jù)預(yù)處理效率低下,GPU等待時間過長,無法實現(xiàn)“熱數(shù)據(jù)高性能訓(xùn)練、冷數(shù)據(jù)自動歸檔”的順暢流轉(zhuǎn)。為破解這一困境,北京星辰天合科技股份有限公司基于XEOS對象存儲,推出“XEOS AI數(shù)據(jù)湖方案”,通過智能數(shù)據(jù)流動機制重塑AI分層存儲邏輯,為頭部AGI廠商、國家級AI實驗室和大型智算中心提供高效數(shù)據(jù)底座。

該方案在技術(shù)創(chuàng)新層面重構(gòu)了AI數(shù)據(jù)分層邏輯。傳統(tǒng)方案按創(chuàng)建時間分層,無法精準(zhǔn)適配數(shù)據(jù)實際訪問模式,而本方案引入基于訪問時間(atime)的智能生命周期管理機制。系統(tǒng)實時感知數(shù)據(jù)訪問行為,精準(zhǔn)捕獲GetObject/HeadObject等操作,每次訪問自動刷新atime,動態(tài)調(diào)整分層計劃。高頻訓(xùn)練數(shù)據(jù)集因頻繁訪問可長期駐留全閃熱層,保障訓(xùn)練性能穩(wěn)定;長期無訪問的冷數(shù)據(jù)則自動流向低成本混閃池,降低存儲成本。同時,方案通過透明化和自動緩存機制實現(xiàn)分層數(shù)據(jù)訪問增強。統(tǒng)一命名空間下,上層應(yīng)用無需關(guān)心數(shù)據(jù)存儲位置,避免手動切換失誤;首次訪問冷層數(shù)據(jù)時,系統(tǒng)異步緩存至熱層,后續(xù)訪問直接從熱層讀取,實現(xiàn)“一次慢、次次快”;每次緩存數(shù)據(jù)訪問刷新過期時間,確保熱點數(shù)據(jù)長期駐留高速層;系統(tǒng)還支持批量HeadObject操作提前預(yù)熱數(shù)據(jù)集,首次訪問即達(dá)極致性能。

在架構(gòu)創(chuàng)新方面,方案在統(tǒng)一命名空間內(nèi)整合“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質(zhì),針對模型訓(xùn)練、推理等高頻場景優(yōu)化,提供毫秒級時延和TB/s級帶寬,滿足GPU集群高并發(fā)數(shù)據(jù)加載需求;溫冷層采用“SSD+HDD”混閃架構(gòu),以低成本承載原始數(shù)據(jù)、中間結(jié)果和訓(xùn)練日志等低頻數(shù)據(jù),支持自動歸檔與生命周期清理功能。數(shù)據(jù)在層間流動時,訪問路徑和權(quán)限控制保持一致,消除“數(shù)據(jù)搬運”操作成本與性能損耗。

性能創(chuàng)新層面,方案基于分布式架構(gòu)設(shè)計,單集群可承載EB級容量,支持線性擴(kuò)展,輕松應(yīng)對AI數(shù)據(jù)“爆發(fā)式增長”。通過優(yōu)化I/O調(diào)度算法,在極限壓力下仍能保持低時延:頭部AGI廠商場景中,峰值讀取帶寬達(dá)5Tbps,讀取時延≤8ms;智算中心場景中,讀取峰值達(dá)149.34GB/s,滿足大模型“高并發(fā)、高帶寬”訓(xùn)練需求。系統(tǒng)繼承星辰天合企業(yè)級存儲的金融級可靠性,數(shù)據(jù)可用性達(dá)99.9999%,減少數(shù)據(jù)丟失風(fēng)險。

該方案實施分為兩個階段:2024年10月至12月,首批交付4個集群,覆蓋不同地域機房,總?cè)萘考s9PB;2025年2月至6月,第二批交付2個地域機房的2個集群,并擴(kuò)容原有3個集群,總?cè)萘考s46PB。項目通過智能分層與混閃架構(gòu),幫助客戶降低存儲TCO 30%-60%。某智算中心避免全閃存過度配置,年節(jié)省存儲采購成本超千萬元;頭部AGI廠商通過冷數(shù)據(jù)自動歸檔,減少30%全閃容量占用。同時,方案消除數(shù)據(jù)流動人工干預(yù)與性能損耗,數(shù)據(jù)預(yù)處理效率提升300%,GPU利用率提升25%-75%。某智算中心GPU等待時間從日均4小時縮短至1小時,年增加模型訓(xùn)練迭代次數(shù)超50次。方案支持在線擴(kuò)容,無需停機,某客戶4個月內(nèi)完成20PB數(shù)據(jù)擴(kuò)容,未影響訓(xùn)練任務(wù),避免日均超百萬元的研發(fā)延誤損失。

在社會效益方面,方案通過高效數(shù)據(jù)底座釋放GPU算力,助力頭部AGI廠商和國家級實驗室突破模型訓(xùn)練效率瓶頸,加速SOTA模型研發(fā),推動我國AI技術(shù)全球競爭。其“高性能+低成本”平衡方案降低AI落地門檻,使中小型AI企業(yè)無需承擔(dān)高昂全閃存成本即可獲得TB/s級存儲能力,推動AI技術(shù)在制造、醫(yī)療、金融等行業(yè)普及。混閃架構(gòu)與智能分層減少高能耗全閃存使用,某智算中心采用方案后,存儲系統(tǒng)年耗電量降低28%,符合“雙碳”目標(biāo),助力AI產(chǎn)業(yè)綠色發(fā)展。

XSKY星辰天合作為面向AI時代的統(tǒng)一數(shù)據(jù)平臺提供商,十年專注分布式存儲,長期位列IDC市場報告“TOP 5”,且是唯一獨立存儲廠商,在對象存儲市場保持領(lǐng)導(dǎo)者地位。公司產(chǎn)品已在3000余家客戶的企業(yè)級生產(chǎn)環(huán)境驗證,為AI創(chuàng)新與數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)代化提供可靠數(shù)據(jù)底座。合作方某通用人工智能科技公司是全球領(lǐng)先的AGI企業(yè),自主研發(fā)的多模態(tài)通用大模型在代碼生成、智能體能力及超長上下文處理方面表現(xiàn)卓越,服務(wù)覆蓋全球超200個國家及地區(qū),觸達(dá)個人用戶超一億,為超5萬家企業(yè)客戶與開發(fā)者提供技術(shù)支持。

該AI Infra案例將角逐由金猿組委會、數(shù)據(jù)猿和上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2025中國大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎項。榜單將于1月上旬在上海舉辦的“2025第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢論壇”現(xiàn)場揭曉并頒獎,歡迎報名參與。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容