DeepSeek-V4發布：智能體任務表現出色，成本與幻覺率成新挑戰-游戲-沃資訊

DeepSeek-V4發布：智能體任務表現出色，成本與幻覺率成新挑戰

發布時間：2026-04-25 20:13 來源：快訊作者：朱天宇

4月24日，人工智能領域迎來重要進展——DeepSeek-V4預覽版正式發布并同步開源。該模型在Agent能力、世界知識儲備與推理性能三大核心維度實現突破，被宣稱達到國內及開源領域領先水平。此次發布的DeepSeek-V4包含Pro與Flash兩個版本，均支持百萬級（1M）token超長上下文處理，同時通過技術創新將計算資源需求大幅降低：每個標記的推理FLOP減少73%，KV緩存內存占用壓縮90%。

全球最大AI模型API聚合平臺OpenRouter的數據顯示，發布首日V4-Flash版本調用量達270億token，V4-Pro版本為47.9億token。盡管調用量龐大，但兩個版本均未進入平臺排行榜前十。在主流評測機構的測試中，DeepSeek-V4展現出差異化競爭力：Artificial Analysis的推理專項測評顯示，V4-Pro以52分位列全球第二大開源推理模型，僅次于Kimi K2.6；V4-Flash得47分，綜合性能對標Claude Sonnet 4.6全力版，處于頂尖閉源模型與中端主流模型之間。

智能體任務表現成為V4-Pro的突出優勢。在真實場景工作測試中，該模型以1554分超越Kimi K2.6（1484分）、GLM-5.1（1535分）等競品，位居所有開源權重模型首位。知識儲備方面，V4-Pro在全知綜合評測指標（AA-Omniscience）中得-10分，較前代提升11分，主要得益于知識回答準確率的優化；V4-Flash得-23分，與V3.2基本持平。但模型幻覺問題顯著加劇：V4-Pro幻覺率達94%，V4-Flash高達96%，意味著在未知場景下模型幾乎都會強行生成答案，這一數據較V3.2的82%明顯惡化。

成本結構呈現兩極分化特征。完成全套人工分析智能指數測評，V4-Pro運行成本為1071美元，雖僅為Claude Opus 4.7（4811美元）的四分之一，但顯著高于Kimi K2.6（948美元）、GLM-5.1（544美元）等同類開源模型，更遠超前代V3.2的71美元。V4-Flash則以113美元的運行成本展現出顯著優勢。高額Token消耗成為成本居高的核心因素——V4-Pro在標準測評中消耗1.9億token，V4-Flash更達2.4億token，位列測評模型中最高消耗梯隊。

技術路線轉向引發產業關注。DeepSeek在技術報告中確認，V4已在NVIDIA GPU與華為昇騰NPUs平臺驗證精細粒度EP（專家并行）方案，通用推理任務加速1.50-1.73倍，時延敏感場景加速達1.96倍。華為同步宣布昇騰950超節點全系列產品支持V4系列模型，通過融合kernel與多流并行技術降低Attention計算開銷，結合量化算法實現高吞吐、低時延部署。這一合作被市場研究機構Omdia視為"中國AI行業里程碑"，其半導體研究主管指出："DeepSeek適配昇騰芯片，標志著中國頂級大模型實現國產化硬件運行，對構建自主AI生態具有戰略意義。"

資本市場對此反應積極。高盛分析師觀察到，V4發布后GPU及國產芯片板塊股價走強，核心關注點轉向支撐模型的芯片架構——包括訓練用芯片與推理硬件的適配性。華為昇騰AI計算集群的適配能力，被視為中國自研硬件生態支撐前沿模型迭代的重要信號。這種技術轉向印證了英偉達CEO黃仁勛的擔憂：其在本月專訪中曾警告，若DeepSeek優先在華為平臺發布，將對美國技術優勢構成"災難性沖擊"，尤其在高端算力采購受限背景下，專用優化可能使英偉達陷入被動。

與前代產品引發的市場震動不同，DeepSeek-V4未導致美國科技股大幅波動。晨星分析師認為，交易市場已充分消化中國AI競爭力的預期，V4的差異化定位將國內其他開源模型直接劃入競品范圍。布魯金斯學會研究員Kyle Chan指出，V4的百萬token上下文能力與華為芯片適配性令人印象深刻，但未復刻前代產品的"現象級影響"，因為外界對中國AI能力的期待值已顯著提升。

更多>同類內容