阿里千問Qwen3-VL、Qwen2.5-VL登頂SpatialBench 空間推理能力領先國際-科技-沃資訊

阿里千問Qwen3-VL、Qwen2.5-VL登頂SpatialBench 空間推理能力領先國際

發(fā)布時間：2025-11-26 18:01 來源：快訊作者：吳俊

在近期更新的空間推理基準測試SpatialBench榜單中，阿里推出的視覺理解模型Qwen3-VL和Qwen2.5-VL表現(xiàn)搶眼，分別占據(jù)榜單前兩名，將Gemini 3、GPT-5.1、Claude Sonnet4.5等國際知名模型甩在身后。這一成績標志著國產大模型在多模態(tài)空間推理領域取得了重大進展。

根據(jù)榜單數(shù)據(jù)，Qwen3-VL-235B以13.5分的成績領跑，Qwen2.5-VL-72B則以12.9分緊隨其后。相比之下，Gemini 3.0 Pro Preview獲得9.6分，GPT-5.1僅得7.5分，其他海外模型的表現(xiàn)也未能超越這兩款國產模型。這一結果充分展現(xiàn)了阿里在視覺理解技術上的領先優(yōu)勢。

盡管大模型在空間推理能力上取得突破，但與人類水平仍存在顯著差距。目前人類在該測試中的基準線約為80分，能夠熟練處理電路分析、CAD工程設計和分子生物學等復雜任務。而現(xiàn)有大模型尚無法完全自動化完成這類工作，說明技術發(fā)展仍有提升空間。

作為阿里2025年開源的新一代產品，Qwen3-VL在視覺感知和多模態(tài)推理方面實現(xiàn)了多項創(chuàng)新。在32項核心能力評估中，該模型超越了Gemini2.5-Pro和GPT-5等對手。其獨特之處在于能夠調用摳圖、搜索等工具進行"帶圖推理"，甚至可以根據(jù)設計草圖或游戲視頻直接生成代碼，實現(xiàn)"視覺編程"功能。

針對3D空間感知的特殊需求，Qwen3-VL專門強化了3D檢測能力。這項改進使機器人能夠更精準地判斷物體方位、視角變化和遮擋關系。在實際應用中，搭載該模型的機器人已能完成遠處蘋果的精準抓取任務，展現(xiàn)了技術落地的潛力。

目前Qwen3-VL已全面開源，提供2B、4B、8B、32B等密集模型，以及30B-A3B、235B-A22B等MoE架構模型。每個版本都包含指令版和推理版兩種選擇，成為企業(yè)和開發(fā)者最受歡迎的開源視覺理解模型之一。同時，用戶還可通過千問APP免費體驗該模型的強大功能。

SpatialBench作為新興的第三方測試標準，專注于評估多模態(tài)模型在空間、結構和路徑推理方面的綜合能力。該測試不僅考察模型掌握的現(xiàn)有知識，更注重其在二維和三維空間中處理抽象概念的能力，這對具身智能技術的發(fā)展具有重要參考價值。測試標準的設計充分考慮了技術落地的實際需求，為行業(yè)提供了新的評估維度。

更多>同類內容