曦望成國內首家百億估值純推理GPU獨角獸，專訪揭秘AI推理成本制勝之道-數碼-沃資訊

曦望成國內首家百億估值純推理GPU獨角獸，專訪揭秘AI推理成本制勝之道

發布時間：2026-04-23 23:03 來源：天脈網作者：楊凌霄

在AI算力競爭的賽道上，一家專注于推理GPU的公司正以驚人的速度崛起。成立僅一年多，曦望便完成了七輪融資，累計金額突破40億元，并在最新一輪融資中以10億元創下國內該領域單筆融資紀錄，成為估值超百億的純推理GPU獨角獸。這一成績背后，是其All in推理的戰略選擇與對行業趨勢的精準把握。

曦望聯席CEO王湛指出，AI行業正經歷算力需求的結構性反轉。過去，市場聚焦于大模型參數量與訓練集群規模，而如今，推理算力需求已呈現指數級增長。據預測，2026年AI推理計算需求將達訓練算力的4-5倍，首次實現全面超越。這一轉變源于Agent技術的普及——智能體為完成任務需進行高頻、多輪調用，導致Token消耗量激增。例如，海外用戶僅與AI對話一句便消耗80美元Token成本的案例，印證了推理成本優化的緊迫性。

面對市場變化，曦望選擇放棄訓練能力，專為推理場景打造原生芯片。其最新推出的啟望S3芯片通過裁剪訓練模塊，將晶體管資源集中投入推理，使單位面積有效算力效率提升5倍以上。技術層面，S3采用深度定制的AI Core架構，將GEMM和Flash Attention等核心算子利用率分別提升至99%和98%，并支持全鏈路低精度運算，在模型效果無損的前提下將吞吐量翻數倍。系統層面，S3成為國內首款采用LPDDR6顯存的推理GPU，最大容量近600GB，同時首發PCIe Gen6接口，系統帶寬翻倍，有效解決長上下文記憶瓶頸。

“我們的目標是將百萬Token成本壓至一分錢。”王湛透露，曦望通過全棧自研實現軟硬件深度優化。硬件方面，AI Core與軟件棧均100%自主開發；生態層面，芯片兼容CUDA生態超99%，確保客戶零遷移成本。這種“自主可控+開放兼容”的策略，源于團隊對通用計算架構的堅持——既避免專用芯片的適配局限，又通過底層代碼實現生態兼容。目前，曦望保持每代芯片一次性流片成功，得益于其自主開發的仿真驗證工具，可在流片前完成海量算子測試，提前識別性能瓶頸。

曦望的崛起離不開其“三位一體”的頂層架構：董事長徐冰（商湯聯合創始人）把控戰略與融資；聯席CEO王勇（前AMD、昆侖芯核心架構師）主導芯片研發；王湛則負責商業化與運營。這一組合匯聚了AI趨勢洞察、硬核技術積累與互聯網產品思維。公司現有400余人團隊中，研發人員占比超80%，核心成員來自英偉達、AMD、華為海思等企業，平均行業經驗超15年。為吸引人才，曦望設立了中國GPU企業中規模最大的員工持股計劃池，通過利益共享機制激發組織戰斗力。

對于AI行業是否存在泡沫的質疑，王湛認為，當前AI與2000年互聯網泡沫有本質區別。ChatGPT用兩年時間突破億級用戶，且用戶粘性持續增強，表明AI正以遠超工業革命和信息革命的速度重塑社會。他判斷，算力市場將長期供不應求，限制因素在于生產工具而非需求——光模塊短缺、內存漲價、服務器搶購等現象，均印證了底層基礎設施的瓶頸。曦望選擇從互聯網大廠切入商業化，正是希望通過服務高標準客戶打磨產品競爭力。

“AI的本質是分發智能，抹平信息鴻溝。”王湛強調，曦望的使命是將智能算力成本降至普惠水平。這種理念不僅體現在技術路線選擇上，更貫穿于組織建設與市場策略中。在算力紅海競爭中，這家年輕獨角獸正以差異化戰略開辟新賽道。

更多>同類內容