在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

ClawBench大模型榜單揭曉:智譜字節(jié)小米四款模型閃耀全球前十

   發(fā)布時間:2026-04-01 00:11 作者:胡穎

評測機構(gòu)ClawBench最新發(fā)布的大型模型榜單引發(fā)行業(yè)關注,北京三家人工智能企業(yè)的四款模型成功躋身全球前十。其中,智譜科技的GLM-5-Turbo以93.9分的成績登頂榜首,字節(jié)跳動旗下的豆包模型Doubao-Seed-2.0-lite緊隨其后位列第二,并憑借最低使用成本成為全榜單中最具性價比的選擇。小米公司則憑借MiMo-V2系列兩款模型實現(xiàn)突破,MiMo-V2-Omni和MiMo-V2-Pro分別占據(jù)第九和第五名。

小米官方披露的技術(shù)細節(jié)顯示,MiMo-V2-Pro在復雜邏輯推理、長指令執(zhí)行和多輪對話穩(wěn)定性等核心指標上表現(xiàn)突出。該模型在Model Rank全球排名中位列第五,同時在實驗室綜合研發(fā)能力評估體系LabRank中取得雙料佳績:在Text Arena(ArenaExpert)榜單中排名全球第四,Code Arena榜單中排名全球第五,綜合研發(fā)實力僅次于Anthropic、OpenAI和谷歌三家國際頂尖機構(gòu)。

ClawBench榜單的評測機制具有顯著創(chuàng)新性,其關聯(lián)的Text Arena榜單采用雙盲測試模式,通過隱藏模型身份的方式,由全球真實用戶根據(jù)回答質(zhì)量直接投票評選。這種設計有效規(guī)避了傳統(tǒng)評測中針對特定數(shù)據(jù)集優(yōu)化導致的"刷榜"現(xiàn)象,使得評測結(jié)果更能反映模型在實際應用場景中的表現(xiàn)。字節(jié)跳動的豆包模型正是憑借這種評測機制下的成本優(yōu)勢,在保持高性能的同時實現(xiàn)了更低的使用門檻。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容