在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

Claude Sonnet 4.6發(fā)布實力升級,馬斯克Grok 4.20同期上線口碑兩極

   發(fā)布時間:2026-02-18 09:23 作者:任飛揚

完成高達300億美元的融資后,人工智能公司Anthropic終于交出了其首份技術答卷。該公司正式發(fā)布了新一代模型Claude Sonnet 4.6,并宣稱其為“史上最強Sonnet版本”。這一升級覆蓋了編程、計算機操作、長上下文推理以及智能體規(guī)劃等多個核心領域,且在保持原有價格體系不變的情況下,性能表現(xiàn)已接近高端型號Opus的水平。

在對比測試中,Sonnet 4.6展現(xiàn)出了顯著優(yōu)勢。數(shù)據顯示,59%的用戶更傾向于選擇Sonnet 4.6而非Opus 4.5,主要原因是其過度工程化現(xiàn)象減少、幻覺問題降低,以及在多步驟任務執(zhí)行中的穩(wěn)定性更強。這一結果無疑為Anthropic在激烈的市場競爭中增添了重要籌碼。

計算機操作能力的提升是此次升級的一大亮點。經過16個月的持續(xù)優(yōu)化,Sonnet系列在OSWorld基準測試中的表現(xiàn)已接近人類水平,能夠熟練處理復雜電子表格和填寫多步驟網頁表單等任務。這一突破對于眾多依賴老舊軟件的企業(yè)而言意義重大,因為它們無需再為這些軟件開發(fā)專門的連接器,從而大幅降低了工程成本。

針對金融行業(yè)用戶,Anthropic還同步升級了Excel中的Claude插件,新增了MCP連接器支持,進一步提升了其實用性。Sonnet 4.6還支持高達100萬token的超大上下文,足以在一次請求中處理完整代碼庫、數(shù)十篇論文或大量合同文件,為需要處理大量數(shù)據的用戶提供了極大便利。

在模擬企業(yè)運營的評估Vending-Bench Arena中,Sonnet 4.6展現(xiàn)出了出色的長期規(guī)劃能力。它能夠在前期大舉投資產能,然后在最后階段迅速轉向盈利導向,通過精準把握轉折時機來甩開其他競爭對手。這一策略不僅體現(xiàn)了其強大的推理能力,也為企業(yè)在實際運營中提供了有益的參考。

對于普通用戶而言,F(xiàn)ree和Pro方案的默認模型已經切換為Sonnet 4.6,用戶可以在claude.ai和Claude Cowork上同步體驗到這一升級帶來的變化。而對于開發(fā)者來說,API模型標識為claude-sonnet-4-6,支持自適應思考和擴展思考功能。同時,上下文壓縮功能可以在對話接近上下文限制時自動總結舊內容,既節(jié)省了token又提高了使用效率。

就在Sonnet 4.6發(fā)布的同時,馬斯克旗下的xAI也推出了Grok 4.20測試版。該版本支持并行調度四個專業(yè)智能體協(xié)同執(zhí)行任務,但整體口碑卻呈現(xiàn)出兩極分化的態(tài)勢。由于此前預期過高,導致不少用戶在體驗后感到失望,紛紛給出差評。面對這一局面,馬斯克迅速在社交媒體上連發(fā)多條推文進行解釋和安撫。

他解釋稱,目前的Grok 4.20只是一個參數(shù)量為500B的小型基礎模型,尚處于公測階段。他強調,Grok 4.20的底層架構具備每周自我迭代的能力,遞歸式智能增長空間巨大。馬斯克還承諾,在公測結束后,Grok 4.20的智能和速度將比Grok 4提升約一個數(shù)量級。然而,這一承諾能否如期兌現(xiàn),仍有待市場和用戶的進一步檢驗。

 
 
更多>同類內容
全站最新
熱門內容