馬斯克xAI坐擁55萬塊英偉達GPU，算力利用率僅11%引業界質疑-數碼-沃資訊

馬斯克xAI坐擁55萬塊英偉達GPU，算力利用率僅11%引業界質疑

發布時間：2026-05-05 12:40 來源：天脈網作者：楊凌霄

馬斯克旗下人工智能公司xAI正因算力利用效率問題陷入輿論漩渦。據內部文件披露，該公司當前模型浮點運算利用率（MFU）僅為11%，遠低于行業平均水平，引發業界對其技術實力的質疑。這一指標意味著，理論上可支撐100份訓練任務的硬件資源，實際僅能完成11份，公司總裁邁克爾·尼科爾斯在備忘錄中直言該數據"低得令人尷尬"，并要求團隊在數月內將利用率提升至50%。

xAI目前部署了約55萬塊英偉達GPU，涵蓋H100和H200系列芯片，規模僅次于少數科技巨頭。盡管這些硬件較最新Blackwell架構落后一代，但如此龐大的算力集群仍令市場震驚。然而，硬件優勢并未轉化為實際效能——MFU作為衡量有效訓練吞吐與理論峰值算力比例的核心指標，直接暴露了公司在系統優化方面的嚴重短板。

與行業基準相比，xAI的表現堪稱落后。當前主流生產級大模型訓練的MFU通常維持在35%-45%區間，meta和谷歌憑借成熟的軟件堆棧分別達到43%和46%。即便在GPT-3訓練時期被詬病"低效"的階段，MFU也能穩定在21%-26%。xAI的11%不僅遠低于行業主流，甚至不及AI算力發展早期的部分項目，這種反差加劇了外界對其技術能力的擔憂。

技術分析指出，xAI的困境源于軟件與硬件發展的失衡。公司長期沿用英偉達標準部署方案，但在軟件堆棧、并行策略和模型工程優化等關鍵領域進展遲緩。具體問題包括：HBM顯存讀取速度滯后導致計算芯片頻繁空轉；數萬塊GPU同步訓練時，網絡拓撲中的任何瓶頸都會被急劇放大；顯存壓力、過度激活重計算以及張量并行帶來的跨設備通信開銷，共同構成了拖累MFU的系統性障礙。

值得關注的是，xAI的基建擴張速度堪稱行業奇跡——其Colossus超級計算機僅用122天便完成建設，GPU規模在短期內實現指數級增長。但這種激進擴張策略也放大了軟件優化的滯后性：當硬件部署以"月"為單位推進時，軟件系統的迭代仍停留在"年"級周期，導致算力集群無法發揮應有價值。業內專家認為，如何平衡硬件擴張與軟件優化節奏，將成為xAI突破當前瓶頸的關鍵。

更多>同類內容