谷歌發布Gemini 1.0：全新多模態模型引領AI技術風潮-資訊-沃資訊

谷歌發布Gemini 1.0：全新多模態模型引領AI技術風潮

發布時間：2023-12-07 11:21 來源：沃資訊

【沃資訊】12月7日消息，谷歌公司于北京時間7日凌晨發布了其最新的多模態模型——Gemini。這一模型被宣稱是谷歌迄今為止最強大、最通用的模型，具備歸納和流暢理解、操作和組合文本、代碼、音頻、圖像和視頻等不同類型信息的能力。

Gemini 1.0推出了三個不同尺寸的模型，分別為Ultra、Pro和Nano。其中，Ultra是規模最大、功能最強大的模型，適用于高度復雜的任務;Pro則是適用于各種任務的最佳模型;而Nano則是端側設備上最高效的模型。

據沃資訊了解，Gemini目前已經應用于多個谷歌產品和平臺，包括聊天機器人Bard和智能手機Pixel 8 Pro。未來幾個月，Gemini將進一步應用于Google旗下更多產品和服務，例如Search、Ads、Chrome和Duet AI。

Gemini在性能上展現出了令人矚目的特點。Gemini Ultra在大規模多任務語言理解(MMLU)測試中的得分率為90.0%，超過了人類專家，而GPT-4的得分率為86.4%。在圖像理解方面，Gemini Ultra在新的MMM基準測試中的得分率為59.4%，明顯優于GPT-4V的得分率56.8%。

Gemini不僅僅在語言理解方面表現優異，還在復雜推理能力上展現出強大的實力。例如，在閱讀、過濾和理解信息的過程中，Gemini可以從數十萬份文件中提取見解，為科學家處理大量研究論文提供了便利。在一次演示中，Gemini在短短的午餐時間內幫助科學家閱讀了20萬篇論文，并呈現了更新數據后的新圖表。

Gemini 1.0的應用還不僅限于文本理解，它還能理解、解釋和生成Python、Java、C++、Go等編程語言的高質量代碼。谷歌表示，Gemini的多模態能力有助于更好地理解具有微妙差異的信息，為回答與復雜主題相關的問題提供了更多可能性。

谷歌同時發布了Cloud TPU v5p，這是一款功能最強大、效率最高、可擴展性最強的TPU系統，旨在支持訓練前沿AI模型。這將加速Gemini的開發，幫助開發者和企業客戶更快地訓練大規模生成式AI模型，從而更迅速地推出新產品和新功能。Gemini 1.0的API將于12月13日起通過Google AI Studio或Google Cloud Vertex AI提供給開發者和企業客戶。

更多>同類內容