谷歌 Gemini 与 GPT-4 哪家强？-摩杜云开发者社区

谷歌 Gemini 与 GPT-4 哪家强？_Google

编辑：蒲蒲

美国时间12月6日，谷歌正式发布了 Gemini 大模型。按照谷歌的说法， Gemini 可以像人类一样理解世界，处理代码、文字、音频、图像和视频通通不在话下。

Google DeepMind团队称，Gemini在32项基准性能测试中的30项上超过了GPT-4。

“我们离新一代人工智能模型的愿景越来越近了。”进行完一系列视频演示后，Google DeepMind产品副总裁Eli Collins（伊莱·柯林斯）对包括第一财经在内的媒体说，这是Google迄今为止功能最强大、最通用的大模型。

谷歌CEO Sundar Pichai(桑达尔·皮查伊) 评价，Gemini 这一新时代的模型代表了 Google 作为一家公司在科学和工程方面所做的最大努力之一。他同时提到，这也是 Google 今年早些时候成立 Google DeepMind 时的愿景首次实现。

Gemini的各种能力

谷歌称，Gemini 是一种“原生多模态”AI模型。这意味着它从一开始就经过预先训练，可以处理用户基于文本和图像的提示词任务，支持文本和图像的服务。

据悉，Gemini 包含三个不同尺寸，分别是Gemini Ultra、Gemini Pro、Gemini Nano。其中，Gemini Nano主要应用于设备端，Pixel 8 Pro将是第一款搭载 Gemini Nano 的智能手机；Gemini Pro 则适用于在各种任务中扩展，谷歌便计划用 Gemini Pro 来升级旗下的聊天机器人 Bard，以及包括搜索、广告、Chrome等在内的更多谷歌产品中。

对于功能最强悍的 Gemini Ultra，谷歌称目前正在进行信任和安全检查，以及通过微调和基于人类反馈的强化学习（RLHF）进一步完善模型，预计明年初向开发人员和企业客户推出。

谷歌 Gemini 与 GPT-4 哪家强？_Google_02

理解文本、图片、音频

Gemini模型经过海量数据训练，可以很好识别和理解文本、图像、音频等内容，并可以回答复杂主题相关的问题。所以，非常擅长解释数学和物理等复杂学科的推理任务。

生成代码

Gemini可以生成和理解Python、Java、C++和Go等主流代码。Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval，这是评估编码任务性能的重要行业标准。

谷歌还基于Gemini模型开发了专业的代码模型AlphaCode 2。与前一代相比，AlphaCode 2的性能提升了至少50%以上。

复杂推理

Gemini的多模态功能，使其能在视觉理解、文本生成等方面有非常强的功能。例如，从数十万字的小说中整理出重要观点；

从200页的金融报告中找出最有价值的内容。这对于金融、科技、医疗的科研和业务人员来说帮助巨大。

支持Bard

目前，谷歌的Bard已经集成了 Gemini Pro 模型，「AIGC开放社区」体验了一下，其图片理解和文本生成能力比之前强很多，尤其是代码生成和审查能力很出色。

谷歌 Gemini 与 GPT-4 哪家强？_基准测试_03

谷歌方面表示，Gemini 将通过谷歌产品推向数十亿用户。目前，谷歌计划通过谷歌云将 Gemini 授权给客户，供他们在自己的应用程序中使用。12月13日开始，开发者和企业客户可以通过谷歌AI Studio或谷歌 Cloud Vertex AI 中的 Gemini API（应用程序编程接口）访问 Gemini Pro，安卓开发人员可以使用 Gemini Nano 完成构建。

能打败GPT4吗？

过去八年，谷歌一直把 AI-first 作为公司战略，2016年打败人类围棋冠军的 AlphaGo 便是出自谷歌之手。毫不夸张地说，是谷歌掀起的一股AI浪潮，但现在，它亟需在大模型领域证明自己。

今年4月，Google 将曾经诞生了Tensorflow 与Transformer 的 Google Brain 团队，和凭借AlphaGo掀起上一轮AI热潮、创造了AlphaFold 预测蛋白质折叠的DeepMind 团队合并，成立 Google DeepMind，这一团队也被外界调侃是“AI复仇者联盟”。

Gemini 被视作是 Google 在AI大模型领域放出的“大招”。Gemini 发布后，外界最关心的是其对 OpenAI GPT4 的挑战。

谷歌在MMLU、DROP 、HellaSwag、GSM8K等主流评测中，将 Gemini 与 OpenAI 的 GPT-4 和 GPT-4 V 进行深度评测。

DeepMind的CEO Demis Hassabis称，谷歌运行了32种完善的基准指标相关测试，对比Gemini和GPT-4这两个模型，既有诸如多任务语言理解这类广泛的整体测试，到生成Python代码这种单一能力的测试。32种基准指标中，Gemini有30项都“遥遥领先”。

谷歌 Gemini 与 GPT-4 哪家强？_Google_04

在性能测试上，Gemini Ultra在32个大语言模型基准测试中的30个中超过了当前最优成绩，另外在MMLU（大规模多任务语言理解）中，Gemini Ultra的得分为90%，成为首个超越人类专家的大模型。

据悉，MMLU通过结合数学、物理、历史、法律、医学和伦理学等57个科目，来测试大模型对世界知识和解决问题的能力。此前，GPT-4在该测试中的成绩为86.4%，而人类专家的成绩为89.8%。

而在MMMU基准测试中，Gemini Ultra取得了59.4%的最高得分，GPT-4V的成绩为56.8%，该项测试由跨越不同领域的多模态任务组成。

黛米斯·哈萨比斯称，在测试图像基准过程中，Gemini Ultra 在没有来自图像字符识别（OCR）系统的帮助下，就超越了此前最先进的模型。这些基准测试凸显了Gemini的多模态能力，也展现出其具有更复杂推理能力的早期迹象。

“我们将Gemini设计为原生多模态，它从一开始就针对不同模态进行了预训练，然后我们使用额外的多模态数据对其进行微调，以进一步提高其效果。”黛米斯·哈萨比斯介绍道，“这帮助Gemini从头开始就能无缝理解和推理各种输入，远远优于现有的多模态模型，而且其能力在几乎所有领域都达到了最先进的水平。”

此外，Gemini 具有到目前为止所有谷歌AI模型中最全面的安全评估，包括对偏见和有害信息的评估。同时，为了识别内部评估方法中的盲点，谷歌还在与各种外部专家和团队合作，对Gemini 模型在各种问题上进行压力测试。

另外值得关注的是，Gemini的训练是基于谷歌自己的张量处理单元(TPUs)——v4 和 v5e。在这些TPUs上，Gemini比谷歌之前的模型运行速度更快、成本更低。所以除了新模型外，谷歌还宣布将推出新的TPU系统——Cloud TPU v5p，这是专为训练尖端AI模型而设计的，也将用于Gemini的开发。

圣达菲研究所的AI研究员Melanie Mitchell对媒体表示，Gemini基准测试的表现令人印象深刻，这的确说明Gemini是一个非常复杂的人工智能系统，但她指出，自己并没有明显感受到Gemini和GPT-4在实际能力上的差距。

Mitchell还指出，Gemini在语言和代码基准测试上的表现要比在图像和视频上表现更好：“多模态基础模型仍然有很长的路要走，才能在许多任务里大范围、可靠地应用。”

斯坦福大学基础模型研究中心主任Percy Liang也对媒体表示，虽然Gemini具有良好的基准分数，但由于训练数据中的内容保密，很难知道如何解释这些数字。

多位科技分析人士认为，虽然 Gemini 的性能的确优于现有的多模态模型，但它和GPT-4的差距并没有那么夸张。从谷歌放出的演示视频来看，很少有什么我们在过去一年的AI炒作狂潮里没见过的东西。

更大的问题在于，如果以谷歌的算力资源、研发能力和丰富的数据都仅能做到勉强击败GPT4，Gemini或许就是以人类目前的技术，能够打造的大模型的上限了。

谷歌 Gemini 与 GPT-4 哪家强？_基准测试_05