亚洲乱色熟女一区二区三区污污,国产又色又爽又黄的网站在线,久久久www影院人成

谷歌Gemini 3 Flash上線“智能體視覺”：AI像人一樣主動“觀察思考”解圖像難題

發(fā)布時間：2026-01-28 16:44 來源：快訊作者：顧青青

谷歌DeepMind團隊近日宣布，在Gemini 3 Flash模型中引入了一項突破性的“智能體視覺”功能。這一創(chuàng)新旨在解決傳統(tǒng)AI模型在圖像處理中的固有局限，通過主動調(diào)查的方式提升視覺理解的準(zhǔn)確性。

傳統(tǒng)AI模型在處理圖像時，往往僅進行一次靜態(tài)掃描。這種方式容易遺漏關(guān)鍵細(xì)節(jié)，例如芯片序列號或遠(yuǎn)處路牌上的信息，導(dǎo)致模型只能依賴猜測生成答案。Gemini 3 Flash的新功能則通過模擬人類的“思考、行動、觀察”循環(huán)，將視覺理解轉(zhuǎn)化為一個動態(tài)過程。模型不再被動接收信息，而是主動制定計劃、操作圖像并驗證結(jié)果，從而確立答案的視覺證據(jù)。

“智能體視覺”的核心機制是一個閉環(huán)系統(tǒng)。在“思考”階段，模型分析用戶查詢和初始圖像，制定多步操作計劃；隨后進入“行動”階段，模型生成并執(zhí)行Python代碼，對圖像進行裁剪、旋轉(zhuǎn)或標(biāo)注等操作，或進行邊界框計算等分析；最后在“觀察”階段，變換后的圖像被追加到模型的上下文窗口中，供進一步驗證。這一過程使模型能夠利用更新后的數(shù)據(jù)和更佳的語境進行二次檢查，最終生成基于事實的回復(fù)。

引入代碼執(zhí)行能力后，Gemini 3 Flash在多項視覺基準(zhǔn)測試中的表現(xiàn)顯著提升，質(zhì)量提高了5%至10%。例如，在建筑圖紙驗證平臺PlanCheckSolver.com上，該功能通過代碼裁剪并分析屋頂邊緣等高分辨率細(xì)節(jié)，使準(zhǔn)確率提升了5%。在處理視覺數(shù)學(xué)問題時，模型不再依賴概率猜測，而是通過編寫代碼識別原始數(shù)據(jù)并調(diào)用Matplotlib庫繪制精確圖表，有效解決了多步視覺算術(shù)中常見的“幻覺”問題。

目前，Gemini 3 Flash已能夠隱式?jīng)Q定何時放大細(xì)節(jié)以獲取更準(zhǔn)確的信息。谷歌DeepMind團隊表示，未來版本將進一步優(yōu)化，無需用戶顯式提示即可自動執(zhí)行旋轉(zhuǎn)圖像或視覺運算等操作，從而提供更智能、更高效的視覺理解服務(wù)。

更多>同類內(nèi)容