資訊在沃

馬斯克xAI坐擁55萬塊英偉達GPU,算力利用率僅11%引業界質疑

   發布時間:2026-05-05 12:40 作者:楊凌霄

馬斯克旗下人工智能公司xAI正因算力利用效率問題陷入輿論漩渦。據內部文件披露,該公司當前模型浮點運算利用率(MFU)僅為11%,遠低于行業平均水平,引發業界對其技術實力的質疑。這一指標意味著,理論上可支撐100份訓練任務的硬件資源,實際僅能完成11份,公司總裁邁克爾·尼科爾斯在備忘錄中直言該數據"低得令人尷尬",并要求團隊在數月內將利用率提升至50%。

xAI目前部署了約55萬塊英偉達GPU,涵蓋H100和H200系列芯片,規模僅次于少數科技巨頭。盡管這些硬件較最新Blackwell架構落后一代,但如此龐大的算力集群仍令市場震驚。然而,硬件優勢并未轉化為實際效能——MFU作為衡量有效訓練吞吐與理論峰值算力比例的核心指標,直接暴露了公司在系統優化方面的嚴重短板。

與行業基準相比,xAI的表現堪稱落后。當前主流生產級大模型訓練的MFU通常維持在35%-45%區間,meta和谷歌憑借成熟的軟件堆棧分別達到43%和46%。即便在GPT-3訓練時期被詬病"低效"的階段,MFU也能穩定在21%-26%。xAI的11%不僅遠低于行業主流,甚至不及AI算力發展早期的部分項目,這種反差加劇了外界對其技術能力的擔憂。

技術分析指出,xAI的困境源于軟件與硬件發展的失衡。公司長期沿用英偉達標準部署方案,但在軟件堆棧、并行策略和模型工程優化等關鍵領域進展遲緩。具體問題包括:HBM顯存讀取速度滯后導致計算芯片頻繁空轉;數萬塊GPU同步訓練時,網絡拓撲中的任何瓶頸都會被急劇放大;顯存壓力、過度激活重計算以及張量并行帶來的跨設備通信開銷,共同構成了拖累MFU的系統性障礙。

值得關注的是,xAI的基建擴張速度堪稱行業奇跡——其Colossus超級計算機僅用122天便完成建設,GPU規模在短期內實現指數級增長。但這種激進擴張策略也放大了軟件優化的滯后性:當硬件部署以"月"為單位推進時,軟件系統的迭代仍停留在"年"級周期,導致算力集群無法發揮應有價值。業內專家認為,如何平衡硬件擴張與軟件優化節奏,將成為xAI突破當前瓶頸的關鍵。

 
 
更多>同類內容
全站最新
熱門內容