XSKY星辰天合：以智能分層存儲，賦能AI大模型高效訓(xùn)練與落地-游戲-沃資訊

隨著大語言模型（LLM）和多模態(tài)模型參數(shù)量與訓(xùn)練數(shù)據(jù)量呈指數(shù)級攀升，AI技術(shù)對數(shù)據(jù)存儲的“性能-成本-效率”提出了前所未有的嚴(yán)苛要求。在AI全工作流中，從數(shù)據(jù)采集、清洗預(yù)處理、GPU高并發(fā)訓(xùn)練到模型推理，每個環(huán)節(jié)均需TB/s級帶寬與低延遲I/O支持。以大規(guī)模圖像識別項目為例，每日需采集數(shù)百萬張圖片，數(shù)據(jù)量可達(dá)數(shù)百GB甚至數(shù)TB，若存儲系統(tǒng)寫入帶寬不足，將直接拖慢采集進(jìn)度；在自然語言處理項目中，分詞、詞性標(biāo)注等預(yù)處理需頻繁讀取數(shù)據(jù)，若讀取帶寬不足，處理效率將大打折扣；深度學(xué)習(xí)項目中，數(shù)千個GPU并行訓(xùn)練時，若存儲系統(tǒng)I/O延遲過高，GPU將因等待數(shù)據(jù)而閑置，造成資源浪費。同時，海量原始數(shù)據(jù)、中間數(shù)據(jù)和歸檔數(shù)據(jù)需長期保存，單一存儲介質(zhì)難以平衡高性能需求與成本控制，“全閃存+混閃”分層存儲已成為行業(yè)共識。

然而，傳統(tǒng)分層方案存在三大核心痛點，嚴(yán)重制約AI效率。其一，盲目流動問題突出。傳統(tǒng)方案基于數(shù)據(jù)創(chuàng)建時間（mtime）分層，導(dǎo)致高頻訪問的訓(xùn)練集可能因“到期”被降級至慢速混閃池，訓(xùn)練性能驟降。其二，割裂命名空間增加操作風(fēng)險。數(shù)據(jù)在不同存儲層間流動需手動切換路徑或掛載點，易因操作失誤導(dǎo)致訓(xùn)練失敗。其三，高昂隱性成本推高總擁有成本（TCO）。企業(yè)為避免性能問題，被迫將更多數(shù)據(jù)保留在全閃存層，或反復(fù)“搬運”降級數(shù)據(jù)回?zé)釋樱瑢?dǎo)致存儲采購成本和人力成本大幅增加。

某大型智算中心曾因開源方案缺乏智能分層能力，數(shù)據(jù)預(yù)處理效率低下，GPU等待時間過長，無法實現(xiàn)“熱數(shù)據(jù)高性能訓(xùn)練、冷數(shù)據(jù)自動歸檔”的順暢流轉(zhuǎn)。為破解這一困境，北京星辰天合科技股份有限公司基于XEOS對象存儲，推出“XEOS AI數(shù)據(jù)湖方案”，通過智能數(shù)據(jù)流動機制重塑AI分層存儲邏輯，為頭部AGI廠商、國家級AI實驗室和大型智算中心提供高效數(shù)據(jù)底座。

該方案在技術(shù)創(chuàng)新層面重構(gòu)了AI數(shù)據(jù)分層邏輯。傳統(tǒng)方案按創(chuàng)建時間分層，無法精準(zhǔn)適配數(shù)據(jù)實際訪問模式，而本方案引入基于訪問時間（atime）的智能生命周期管理機制。系統(tǒng)實時感知數(shù)據(jù)訪問行為，精準(zhǔn)捕獲GetObject/HeadObject等操作，每次訪問自動刷新atime，動態(tài)調(diào)整分層計劃。高頻訓(xùn)練數(shù)據(jù)集因頻繁訪問可長期駐留全閃熱層，保障訓(xùn)練性能穩(wěn)定；長期無訪問的冷數(shù)據(jù)則自動流向低成本混閃池，降低存儲成本。同時，方案通過透明化和自動緩存機制實現(xiàn)分層數(shù)據(jù)訪問增強。統(tǒng)一命名空間下，上層應(yīng)用無需關(guān)心數(shù)據(jù)存儲位置，避免手動切換失誤；首次訪問冷層數(shù)據(jù)時，系統(tǒng)異步緩存至熱層，后續(xù)訪問直接從熱層讀取，實現(xiàn)“一次慢、次次快”；每次緩存數(shù)據(jù)訪問刷新過期時間，確保熱點數(shù)據(jù)長期駐留高速層；系統(tǒng)還支持批量HeadObject操作提前預(yù)熱數(shù)據(jù)集，首次訪問即達(dá)極致性能。

在架構(gòu)創(chuàng)新方面，方案在統(tǒng)一命名空間內(nèi)整合“高性能全閃熱層”與“大容量混閃溫冷層”。熱層采用全閃存介質(zhì)，針對模型訓(xùn)練、推理等高頻場景優(yōu)化，提供毫秒級時延和TB/s級帶寬，滿足GPU集群高并發(fā)數(shù)據(jù)加載需求；溫冷層采用“SSD+HDD”混閃架構(gòu)，以低成本承載原始數(shù)據(jù)、中間結(jié)果和訓(xùn)練日志等低頻數(shù)據(jù)，支持自動歸檔與生命周期清理功能。數(shù)據(jù)在層間流動時，訪問路徑和權(quán)限控制保持一致，消除“數(shù)據(jù)搬運”操作成本與性能損耗。

性能創(chuàng)新層面，方案基于分布式架構(gòu)設(shè)計，單集群可承載EB級容量，支持線性擴(kuò)展，輕松應(yīng)對AI數(shù)據(jù)“爆發(fā)式增長”。通過優(yōu)化I/O調(diào)度算法，在極限壓力下仍能保持低時延：頭部AGI廠商場景中，峰值讀取帶寬達(dá)5Tbps，讀取時延≤8ms；智算中心場景中，讀取峰值達(dá)149.34GB/s，滿足大模型“高并發(fā)、高帶寬”訓(xùn)練需求。系統(tǒng)繼承星辰天合企業(yè)級存儲的金融級可靠性，數(shù)據(jù)可用性達(dá)99.9999%，減少數(shù)據(jù)丟失風(fēng)險。

該方案實施分為兩個階段：2024年10月至12月，首批交付4個集群，覆蓋不同地域機房，總?cè)萘考s9PB；2025年2月至6月，第二批交付2個地域機房的2個集群，并擴(kuò)容原有3個集群，總?cè)萘考s46PB。項目通過智能分層與混閃架構(gòu)，幫助客戶降低存儲TCO 30%-60%。某智算中心避免全閃存過度配置，年節(jié)省存儲采購成本超千萬元；頭部AGI廠商通過冷數(shù)據(jù)自動歸檔，減少30%全閃容量占用。同時，方案消除數(shù)據(jù)流動人工干預(yù)與性能損耗，數(shù)據(jù)預(yù)處理效率提升300%，GPU利用率提升25%-75%。某智算中心GPU等待時間從日均4小時縮短至1小時，年增加模型訓(xùn)練迭代次數(shù)超50次。方案支持在線擴(kuò)容，無需停機，某客戶4個月內(nèi)完成20PB數(shù)據(jù)擴(kuò)容，未影響訓(xùn)練任務(wù)，避免日均超百萬元的研發(fā)延誤損失。

在社會效益方面，方案通過高效數(shù)據(jù)底座釋放GPU算力，助力頭部AGI廠商和國家級實驗室突破模型訓(xùn)練效率瓶頸，加速SOTA模型研發(fā)，推動我國AI技術(shù)全球競爭。其“高性能+低成本”平衡方案降低AI落地門檻，使中小型AI企業(yè)無需承擔(dān)高昂全閃存成本即可獲得TB/s級存儲能力，推動AI技術(shù)在制造、醫(yī)療、金融等行業(yè)普及。混閃架構(gòu)與智能分層減少高能耗全閃存使用，某智算中心采用方案后，存儲系統(tǒng)年耗電量降低28%，符合“雙碳”目標(biāo)，助力AI產(chǎn)業(yè)綠色發(fā)展。

XSKY星辰天合作為面向AI時代的統(tǒng)一數(shù)據(jù)平臺提供商，十年專注分布式存儲，長期位列IDC市場報告“TOP 5”，且是唯一獨立存儲廠商，在對象存儲市場保持領(lǐng)導(dǎo)者地位。公司產(chǎn)品已在3000余家客戶的企業(yè)級生產(chǎn)環(huán)境驗證，為AI創(chuàng)新與數(shù)據(jù)基礎(chǔ)設(shè)施現(xiàn)代化提供可靠數(shù)據(jù)底座。合作方某通用人工智能科技公司是全球領(lǐng)先的AGI企業(yè)，自主研發(fā)的多模態(tài)通用大模型在代碼生成、智能體能力及超長上下文處理方面表現(xiàn)卓越，服務(wù)覆蓋全球超200個國家及地區(qū)，觸達(dá)個人用戶超一億，為超5萬家企業(yè)客戶與開發(fā)者提供技術(shù)支持。

該AI Infra案例將角逐由金猿組委會、數(shù)據(jù)猿和上海大數(shù)據(jù)聯(lián)盟聯(lián)合推出的《2025中國大數(shù)據(jù)產(chǎn)業(yè)年度AI Infra領(lǐng)先企業(yè)》榜單/獎項。榜單將于1月上旬在上海舉辦的“2025第八屆金猿大數(shù)據(jù)產(chǎn)業(yè)發(fā)展論壇——暨AI Infra & Data Agent趨勢論壇”現(xiàn)場揭曉并頒獎，歡迎報名參與。