在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

北大與UCSD團(tuán)隊(duì)提出VideoOrion:Object Tokens解鎖視頻理解新維度

   發(fā)布時(shí)間:2025-11-28 04:53 作者:蘇婉清

在視頻理解領(lǐng)域,北大與UCSD聯(lián)合團(tuán)隊(duì)提出了一項(xiàng)創(chuàng)新框架——VideoOrion,其論文被國(guó)際計(jì)算機(jī)視覺頂會(huì)ICCV 2025以高分接收。該研究針對(duì)現(xiàn)有Video-LLM模型依賴下采樣或特征聚合導(dǎo)致細(xì)節(jié)丟失、語(yǔ)義糾纏的問題,提出將視頻中前景物體的時(shí)空動(dòng)態(tài)顯式編碼為“對(duì)象令牌”(Object Tokens),并與背景上下文令牌(Context Tokens)并行輸入大語(yǔ)言模型(LLM),構(gòu)建出兼具高效性與可解釋性的視頻理解系統(tǒng)。

傳統(tǒng)方法通常將視頻幀分割為空間網(wǎng)格或聚合特征生成令牌,但這種處理方式容易混淆不同物體的語(yǔ)義信息。VideoOrion的創(chuàng)新之處在于,它將視頻中的對(duì)象及其跨幀演化視為獨(dú)立語(yǔ)義單元,通過“檢測(cè)-分割-跟蹤”三步流水線提取對(duì)象動(dòng)態(tài)。具體而言,系統(tǒng)首先利用通用檢測(cè)模型GroundingDINO在關(guān)鍵幀生成候選框,再通過分割模型SAM細(xì)化對(duì)象掩碼,最后用跨幀跟蹤器XMem生成隨時(shí)間變化的掩碼序列。這些掩碼經(jīng)過特征池化與投影后,形成語(yǔ)義解耦的Object Tokens,每個(gè)令牌對(duì)應(yīng)一個(gè)獨(dú)立物體的動(dòng)態(tài)信息。

在雙分支編碼架構(gòu)中,Context Tokens分支采用CLIP或SigLIP模型對(duì)采樣幀進(jìn)行編碼,生成承載背景與場(chǎng)景信息的上下文令牌;Object Tokens分支則通過上述流水線提取對(duì)象級(jí)動(dòng)態(tài)。兩類令牌被并行輸入LLM進(jìn)行融合推理,使模型既能捕捉全局場(chǎng)景信息,又能聚焦關(guān)鍵對(duì)象的細(xì)節(jié)變化。例如,在描述“紅色三輪滑板車”時(shí),模型不僅能識(shí)別其顏色與類型,還能解析“拖地組件”等細(xì)節(jié);在分析動(dòng)作場(chǎng)景時(shí),可精確分解“黑色泳裝跳板后空翻”中的動(dòng)作要素。

實(shí)驗(yàn)表明,VideoOrion在MVBench、EgoSchema、Perception-Test等五大基準(zhǔn)測(cè)試中全面超越同規(guī)模模型。以7B參數(shù)版本為例,其在MVBench上的準(zhǔn)確率達(dá)63.5%,較VideoLLaMA2提升10.1%;在EgoSchema上得分65.1,漲幅達(dá)14.6%。特別在視頻指代任務(wù)中,該框架展現(xiàn)出獨(dú)特優(yōu)勢(shì):通過在提示模板中填入目標(biāo)對(duì)象對(duì)應(yīng)的令牌,即可直接回答“這個(gè)物體在做什么”等問題。在VideoRef45K數(shù)據(jù)集上,經(jīng)少量微調(diào)后,其BLEU@4、METEOR等指標(biāo)均顯著優(yōu)于Artemis、Merlin等現(xiàn)有方法。

研究團(tuán)隊(duì)通過消融實(shí)驗(yàn)驗(yàn)證了設(shè)計(jì)合理性:移除對(duì)象分支會(huì)導(dǎo)致性能全面下降;預(yù)訓(xùn)練對(duì)象分支可提升模型表現(xiàn),說明對(duì)象令牌需先學(xué)習(xí)基礎(chǔ)語(yǔ)義再與文本對(duì)齊;令牌數(shù)量控制在64個(gè)時(shí)模型最穩(wěn)定,過多會(huì)分散注意力。流水線組件替換實(shí)驗(yàn)顯示,RAM++自適應(yīng)分段策略與XMem跟蹤器的組合效果最佳,較均勻分段或SAM2跟蹤均有明顯優(yōu)勢(shì)。

盡管VideoOrion在性能上取得突破,但研究也指出其局限性:引入專用視覺模型帶來約38.5%的時(shí)延開銷,低質(zhì)量視頻可能導(dǎo)致掩碼不準(zhǔn)確;當(dāng)前仍依賴視頻分支提供上下文,對(duì)象-場(chǎng)景融合機(jī)制需進(jìn)一步優(yōu)化。該框架通過結(jié)構(gòu)化重寫視頻語(yǔ)義,為視頻問答、機(jī)器人感知等任務(wù)提供了新范式,其雙視角編碼思路或推動(dòng)多模態(tài)領(lǐng)域向更精細(xì)化的方向發(fā)展。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容