科技之家

科技之家,汇聚专业声音 解析IT潮流

首页 > 评测 >

Gemini vs. GPT: 一场巨头对决的公正评测

来源: 时间:2023-12-25 11:38:13

  在大型语言模型领域,OpenAI的GPT系列一直占据着主导地位。然而,最近谷歌发布的Gemini引起了不小的轰动。Gemini作为谷歌的巨头力作,备受期待。本文将对Gemini和GPT系列进行一次公正深入的评测,对比它们在多个任务上的表现。

  基于知识的问答

  在基于知识的问答任务中,Gemini Pro在Massive Multitask Language Understanding(MMLU)评测中略显逊色,尤其是在思维链提示词的任务中。Gemini Pro相对于GPT-3.5 Turbo在多选题中表现较差,显示出一些答案偏见,需要进一步调整以提高准确性。

  通用推理

  Gemini Pro在通用推理任务中的表现相对低于GPT 3.5 Turbo和GPT 4 Turbo,尤其在处理长且复杂问题时表现欠佳。GPT 4 Turbo在解决更长、更复杂问题时表现稳健,而Gemini Pro的性能则相对较差。

  数学问题

  在数学应用题评测中,Gemini Pro在GSM8K、SVAMP、ASDIV等任务上略逊于GPT 3.5 Turbo和GPT 4 Turbo。对于长任务推理,Gemini Pro相对表现良好,但在处理较短问题时不及GPT 3.5 Turbo。

  代码生成

  在代码生成任务中,Gemini Pro在HumanEval和ODEX数据集上的表现较差,Pass@1成绩低于GPT-3.5 Turbo。Gemini Pro对于解决较简单的问题(解决方案长度低于100)的性能较好,但在处理更长、更复杂问题时性能显著下降。

  机器翻译

  在机器翻译任务中,Gemini Pro在FLORES-200基准评估中表现优异,尤其在英语到其他语言(ENG→X)的翻译任务中总体优于GPT 3.5 Turbo和GPT 4 Turbo。Gemini Pro在零样本提示和5样本提示方面均表现良好。

  网页代理

  在充当网络导航代理的任务中,Gemini Pro在WebArena模拟环境中的表现与GPT-3.5 Turbo相当,稍逊于GPT-3.5 Turbo。Gemini Pro在多站点任务上表现较好,但在特定任务(如gitlab和地图)上稍显不足。

  综合评估Gemini Pro和GPT系列在各项任务上的表现,Gemini Pro在机器翻译任务上表现出色,但在通用推理和代码生成等任务中相对较弱。相比之下,GPT系列在通用推理和代码生成等任务中保持一定优势。因此,在选择模型时,需根据具体任务需求权衡各模型的优势和劣势。值得注意的是,本次评测截至2023年12月19日,未来随着模型和系统的升级,结果可能发生变化。

  请注意: 以上评测结果为作者在特定条件下的观察,实际应用中结果可能因不同的任务和数据集而异。在使用Gemini Pro之前,建议用户根据具体需求进行详细评估,尤其是在涉及到通用推理和代码生成等复杂任务时。

相关文章