在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

谷歌Gemini 3 Flash上線“智能體視覺”:AI像人一樣主動“觀察思考”解圖像難題

   發(fā)布時間:2026-01-28 16:44 作者:顧青青

谷歌DeepMind團隊近日宣布,在Gemini 3 Flash模型中引入了一項突破性的“智能體視覺”功能。這一創(chuàng)新旨在解決傳統(tǒng)AI模型在圖像處理中的固有局限,通過主動調(diào)查的方式提升視覺理解的準(zhǔn)確性。

傳統(tǒng)AI模型在處理圖像時,往往僅進行一次靜態(tài)掃描。這種方式容易遺漏關(guān)鍵細(xì)節(jié),例如芯片序列號或遠(yuǎn)處路牌上的信息,導(dǎo)致模型只能依賴猜測生成答案。Gemini 3 Flash的新功能則通過模擬人類的“思考、行動、觀察”循環(huán),將視覺理解轉(zhuǎn)化為一個動態(tài)過程。模型不再被動接收信息,而是主動制定計劃、操作圖像并驗證結(jié)果,從而確立答案的視覺證據(jù)。

“智能體視覺”的核心機制是一個閉環(huán)系統(tǒng)。在“思考”階段,模型分析用戶查詢和初始圖像,制定多步操作計劃;隨后進入“行動”階段,模型生成并執(zhí)行Python代碼,對圖像進行裁剪、旋轉(zhuǎn)或標(biāo)注等操作,或進行邊界框計算等分析;最后在“觀察”階段,變換后的圖像被追加到模型的上下文窗口中,供進一步驗證。這一過程使模型能夠利用更新后的數(shù)據(jù)和更佳的語境進行二次檢查,最終生成基于事實的回復(fù)。

引入代碼執(zhí)行能力后,Gemini 3 Flash在多項視覺基準(zhǔn)測試中的表現(xiàn)顯著提升,質(zhì)量提高了5%至10%。例如,在建筑圖紙驗證平臺PlanCheckSolver.com上,該功能通過代碼裁剪并分析屋頂邊緣等高分辨率細(xì)節(jié),使準(zhǔn)確率提升了5%。在處理視覺數(shù)學(xué)問題時,模型不再依賴概率猜測,而是通過編寫代碼識別原始數(shù)據(jù)并調(diào)用Matplotlib庫繪制精確圖表,有效解決了多步視覺算術(shù)中常見的“幻覺”問題。

目前,Gemini 3 Flash已能夠隱式?jīng)Q定何時放大細(xì)節(jié)以獲取更準(zhǔn)確的信息。谷歌DeepMind團隊表示,未來版本將進一步優(yōu)化,無需用戶顯式提示即可自動執(zhí)行旋轉(zhuǎn)圖像或視覺運算等操作,從而提供更智能、更高效的視覺理解服務(wù)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容