【沃資訊】12月7日消息,谷歌公司于北京時間7日凌晨發布了其最新的多模態模型——Gemini。這一模型被宣稱是谷歌迄今為止最強大、最通用的模型,具備歸納和流暢理解、操作和組合文本、代碼、音頻、圖像和視頻等不同類型信息的能力。
Gemini 1.0推出了三個不同尺寸的模型,分別為Ultra、Pro和Nano。其中,Ultra是規模最大、功能最強大的模型,適用于高度復雜的任務;Pro則是適用于各種任務的最佳模型;而Nano則是端側設備上最高效的模型。

據沃資訊了解,Gemini目前已經應用于多個谷歌產品和平臺,包括聊天機器人Bard和智能手機Pixel 8 Pro。未來幾個月,Gemini將進一步應用于Google旗下更多產品和服務,例如Search、Ads、Chrome和Duet AI。
Gemini在性能上展現出了令人矚目的特點。Gemini Ultra在大規模多任務語言理解(MMLU)測試中的得分率為90.0%,超過了人類專家,而GPT-4的得分率為86.4%。在圖像理解方面,Gemini Ultra在新的MMM基準測試中的得分率為59.4%,明顯優于GPT-4V的得分率56.8%。

Gemini不僅僅在語言理解方面表現優異,還在復雜推理能力上展現出強大的實力。例如,在閱讀、過濾和理解信息的過程中,Gemini可以從數十萬份文件中提取見解,為科學家處理大量研究論文提供了便利。在一次演示中,Gemini在短短的午餐時間內幫助科學家閱讀了20萬篇論文,并呈現了更新數據后的新圖表。
Gemini 1.0的應用還不僅限于文本理解,它還能理解、解釋和生成Python、Java、C++、Go等編程語言的高質量代碼。谷歌表示,Gemini的多模態能力有助于更好地理解具有微妙差異的信息,為回答與復雜主題相關的問題提供了更多可能性。

谷歌同時發布了Cloud TPU v5p,這是一款功能最強大、效率最高、可擴展性最強的TPU系統,旨在支持訓練前沿AI模型。這將加速Gemini的開發,幫助開發者和企業客戶更快地訓練大規模生成式AI模型,從而更迅速地推出新產品和新功能。Gemini 1.0的API將于12月13日起通過Google AI Studio或Google Cloud Vertex AI提供給開發者和企業客戶。



















