資訊在沃

曦望成國內首家百億估值純推理GPU獨角獸,專訪揭秘AI推理成本制勝之道

   發布時間:2026-04-23 23:03 作者:楊凌霄

在AI算力競爭的賽道上,一家專注于推理GPU的公司正以驚人的速度崛起。成立僅一年多,曦望便完成了七輪融資,累計金額突破40億元,并在最新一輪融資中以10億元創下國內該領域單筆融資紀錄,成為估值超百億的純推理GPU獨角獸。這一成績背后,是其All in推理的戰略選擇與對行業趨勢的精準把握。

曦望聯席CEO王湛指出,AI行業正經歷算力需求的結構性反轉。過去,市場聚焦于大模型參數量與訓練集群規模,而如今,推理算力需求已呈現指數級增長。據預測,2026年AI推理計算需求將達訓練算力的4-5倍,首次實現全面超越。這一轉變源于Agent技術的普及——智能體為完成任務需進行高頻、多輪調用,導致Token消耗量激增。例如,海外用戶僅與AI對話一句便消耗80美元Token成本的案例,印證了推理成本優化的緊迫性。

面對市場變化,曦望選擇放棄訓練能力,專為推理場景打造原生芯片。其最新推出的啟望S3芯片通過裁剪訓練模塊,將晶體管資源集中投入推理,使單位面積有效算力效率提升5倍以上。技術層面,S3采用深度定制的AI Core架構,將GEMM和Flash Attention等核心算子利用率分別提升至99%和98%,并支持全鏈路低精度運算,在模型效果無損的前提下將吞吐量翻數倍。系統層面,S3成為國內首款采用LPDDR6顯存的推理GPU,最大容量近600GB,同時首發PCIe Gen6接口,系統帶寬翻倍,有效解決長上下文記憶瓶頸。

“我們的目標是將百萬Token成本壓至一分錢。”王湛透露,曦望通過全棧自研實現軟硬件深度優化。硬件方面,AI Core與軟件棧均100%自主開發;生態層面,芯片兼容CUDA生態超99%,確保客戶零遷移成本。這種“自主可控+開放兼容”的策略,源于團隊對通用計算架構的堅持——既避免專用芯片的適配局限,又通過底層代碼實現生態兼容。目前,曦望保持每代芯片一次性流片成功,得益于其自主開發的仿真驗證工具,可在流片前完成海量算子測試,提前識別性能瓶頸。

曦望的崛起離不開其“三位一體”的頂層架構:董事長徐冰(商湯聯合創始人)把控戰略與融資;聯席CEO王勇(前AMD、昆侖芯核心架構師)主導芯片研發;王湛則負責商業化與運營。這一組合匯聚了AI趨勢洞察、硬核技術積累與互聯網產品思維。公司現有400余人團隊中,研發人員占比超80%,核心成員來自英偉達、AMD、華為海思等企業,平均行業經驗超15年。為吸引人才,曦望設立了中國GPU企業中規模最大的員工持股計劃池,通過利益共享機制激發組織戰斗力。

對于AI行業是否存在泡沫的質疑,王湛認為,當前AI與2000年互聯網泡沫有本質區別。ChatGPT用兩年時間突破億級用戶,且用戶粘性持續增強,表明AI正以遠超工業革命和信息革命的速度重塑社會。他判斷,算力市場將長期供不應求,限制因素在于生產工具而非需求——光模塊短缺、內存漲價、服務器搶購等現象,均印證了底層基礎設施的瓶頸。曦望選擇從互聯網大廠切入商業化,正是希望通過服務高標準客戶打磨產品競爭力。

“AI的本質是分發智能,抹平信息鴻溝。”王湛強調,曦望的使命是將智能算力成本降至普惠水平。這種理念不僅體現在技術路線選擇上,更貫穿于組織建設與市場策略中。在算力紅海競爭中,這家年輕獨角獸正以差異化戰略開辟新賽道。

 
 
更多>同類內容
全站最新
熱門內容