在线亚洲国产一区二区三区-日韩亚洲欧洲人妻三区中文字幕-国产精品一区二区男女羞羞无遮挡-日韩特黄免费在线观看-视频一区二区三区免费在线视频-天天在线天天看成人免费视频-人人妻天天爽夜夜爽视频-国产极品久久久久久久久久-老司机午夜福利视频一区

資訊在沃

谷歌Gemini Embedding 2發(fā)布:全模態(tài)融合,開啟AI嵌入技術(shù)新篇章

   發(fā)布時間:2026-03-11 22:46 作者:鐘景軒

谷歌DeepMind近日宣布推出革命性的Gemini Embedding 2模型,這是全球首個原生多模態(tài)嵌入解決方案,實現(xiàn)了文本、圖像、視頻、音頻和文檔五種媒體類型的統(tǒng)一語義表征。該模型突破傳統(tǒng)AI處理框架,將不同模態(tài)數(shù)據(jù)映射至共享嵌入空間,為跨模態(tài)信息檢索與理解開辟了新路徑。

技術(shù)架構(gòu)層面,該模型基于Gemini架構(gòu)深度優(yōu)化,支持單次請求中混合輸入多種媒體類型。文本處理能力提升至8192個token,圖像支持6張PNG/JPEG格式同時處理,視頻可解析120秒內(nèi)的MP4/MOV內(nèi)容,音頻數(shù)據(jù)無需轉(zhuǎn)錄即可直接生成嵌入向量,文檔則支持6頁P(yáng)DF的直接嵌入。這種交錯輸入機(jī)制使模型能夠捕捉圖像與文本、視頻與音頻等跨模態(tài)間的語義關(guān)聯(lián),顯著提升復(fù)雜場景下的理解精度。

在性能表現(xiàn)上,谷歌公布的基準(zhǔn)測試數(shù)據(jù)顯示,Gemini Embedding 2在文本、圖像和視頻任務(wù)中均超越現(xiàn)有主流模型。其獨(dú)創(chuàng)的Matryoshka表示學(xué)習(xí)(MRL)技術(shù)通過動態(tài)維度壓縮,將默認(rèn)3072維向量可降至768維,在保持98%性能的同時降低60%存儲成本。開發(fā)者可根據(jù)應(yīng)用場景選擇3072、1536或768三檔維度,平衡精度與計算資源消耗。

原生語音處理能力成為該模型的核心突破。不同于傳統(tǒng)需要語音轉(zhuǎn)文本的間接處理方式,Gemini Embedding 2可直接生成音頻數(shù)據(jù)的嵌入向量,在會議記錄、語音搜索等場景中實現(xiàn)端到端處理。谷歌工程師透露,該能力使語音檢索響應(yīng)速度提升3倍,錯誤率降低42%。

企業(yè)應(yīng)用層面,該模型顯著降低多模態(tài)系統(tǒng)開發(fā)門檻。開發(fā)者通過Gemini API或Vertex AI平臺即可調(diào)用服務(wù),快速構(gòu)建語義搜索、數(shù)據(jù)分類和RAG(檢索增強(qiáng)生成)系統(tǒng)。某金融科技公司利用該模型重構(gòu)客戶服務(wù)平臺后,跨模態(tài)知識庫檢索效率提升5倍,多語言支持范圍擴(kuò)展至103種語言。

目前已有超過200家企業(yè)參與早期測試,涵蓋媒體、醫(yī)療、電商等多個領(lǐng)域。醫(yī)療影像公司通過混合輸入X光片與臨床報告,將診斷準(zhǔn)確率提升至92%;電商平臺利用圖文視頻聯(lián)合嵌入,實現(xiàn)商品搜索點(diǎn)擊率增長28%。谷歌表示將持續(xù)優(yōu)化模型在低資源語言和長視頻處理方面的表現(xiàn),并計劃年內(nèi)推出邊緣設(shè)備部署方案。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容