GPT-4o 到底有多强?模型图文多模态能力评测结果全公开

发布于 2024-7-10 09:30
浏览
0收藏

5 月 14 日, OpenAI 发布了 GPT-4o ,支持文本、图像、语音、视频等多种形式的输入,大幅提升了推理响应的速度,在非英文任务上具有较大提升,并拥有比现有模型更强的视觉理解能力。我们第一时间对 GPT-4o 模型的图像-文本多模态能力进行了评测。

GPT-4o 到底有多强?模型图文多模态能力评测结果全公开-AI.x社区

OpenAI 官方公布的视觉理解性能

基于多模态大模型开源评测工具 VLMEvalKit,我们在 Open VLM Leaderboard 中的十二个图文多模态评测集上测试了 GPT-4o 的视觉能力。

GPT-4o 到底有多强?模型图文多模态能力评测结果全公开-AI.x社区

GPT-4o (20240513) 与此前的 GPT-4v 版本在各个多模态测试集上的性能对比

在各个通用图文多模态评测数据集 (MMBench, MME, SEEDBench, MMStar 等) 上,GPT-4o 相比上一版本的 GPT-4v 均有不同程度的提升。其中在更具挑战性的 MMStar,中文测试集 CCBench,MMBench_CN 等上面的提升尤其显著。

在基于GPT-4主观打分的MMVet与LLaVABench上,GPT-4o 相比上一版本的 GPT-4v 有微小下降,目前猜测是由于 GPT-4 打分的随机性所致。

在强推理的多模测试集 (MMMU, MathVista 等) 上,GPT-4o 相比上一版本的 GPT-4v 有一定提升,但比较微小。

在幻觉多模测试集 HallusionBench 上,GPT-4o 相比上一版本的 GPT-4v 有显著提升。


  总 结  

  • GPT-4o 的客观性能相比 GPT-4v (0409) 有了更进一步的提升,在所有测试集上的平均分提升约 3 分;
  • GPT-4o 显示了更强的感知能力与更少的幻觉;
  • GPT-4o 的中文能力得到了较大的提高。

需要注意的是,由于 OpenAI 设置的规则,GPT-4o 在解答部分评测集中问题的时候,会出现拒答的现象。这一点导致 GPT-4o 的真实性能可能较我们报告的性能更强。

GPT-4o 的详细评测结果已上线至Opencompass官网及Open-VLM-Leaderboard,欢迎大家访问查看更详细的评测数据!

GPT-4o 到底有多强?模型图文多模态能力评测结果全公开-AI.x社区

Opencompass官网:

​​​https://opencompass.org.cn/​

Open-VLM-Leaderboard:

​https://huggingface.co/spaces/opencompass/open_vlm_leaderboard​

本文转载自​司南评测体系​,作者: OpenCompass 司南 ​​

收藏
回复
举报
回复
相关推荐