近日,中國移動攜手英特爾、博通等多家行業領軍企業,共同發布《開放解構超節點(ODS)系統架構技術白皮書(1.0 版)》。該白皮書針對當前大模型發展對AI基礎設施提出的嚴苛要求,提出了一套創新的開放解構超節點架構解決方案,旨在為下一代大模型建設提供標準化技術參考。
白皮書指出,隨著MoE大模型規模不斷擴大,AI基礎設施面臨高帶寬、低延遲的雙重挑戰。現有超節點技術普遍存在硬件異構、廠商鎖定、適配成本高、擴展性受限、運維復雜等痛點。為此,ODS系統架構提出五大核心設計原則:網絡協議完全開放、硬件架構全面解構、系統規模彈性擴展、散熱方案靈活配置、互聯效率全面優化。這些原則通過打破廠商綁定、提升系統兼容性,為AI基礎設施的靈活部署奠定基礎。
在系統架構層面,ODS創新性地推出基礎型與級聯型兩種模式。基礎型采用單級交換架構,通過一級交換全對等互連構建高帶寬域,支持液冷模式下256卡、風冷模式下128卡的集群規模。級聯型則引入第二級互聯層,推薦采用OCS光電路交換機減少光電轉換損耗,最大可擴展至16384卡集群,滿足超大規模模型訓練需求。這種分層設計使系統既能適配小型研發場景,也能支撐大型商業部署。
核心組件設計方面,白皮書制定了詳細的技術規范。計算節點區分風冷與液冷方案,明確GPU選型標準、單板設計要求、電源配置規范及散熱設計準則。交換節點同樣覆蓋兩種散熱方案,對交換芯片選型、接口規格、內部布局等提出量化標準。互聯方案遵循"銅纜優先"原則,推薦AEC銅纜用于計算與交換節點短距離互聯,光互聯方案(FRO/LPO/LRO/CPO)則適用于交換節點間長距離傳輸,并系統分析了各方案的性能表現與適用場景。
軟件架構方面,ODS采用分層解耦設計理念,構建起模塊化的軟件棧體系。基礎設施層面,白皮書對機柜尺寸、供電配置、布線方案、散熱系統等提出標準化要求,并創新性地提出機柜統一管理方案,實現資產統計、故障診斷、電源控制等智能化功能。這種標準化與模塊化的設計思路,顯著降低了系統部署成本與運維復雜度,為AI基礎設施的規模化應用掃清障礙。




















