GPT-4o 到底有多强？模型图文多模态能力评测结果全公开

发布于 2024-7-10 09:30

浏览

0收藏

5 月 14 日， OpenAI 发布了 GPT-4o ，支持文本、图像、语音、视频等多种形式的输入，大幅提升了推理响应的速度，在非英文任务上具有较大提升，并拥有比现有模型更强的视觉理解能力。我们第一时间对 GPT-4o 模型的图像-文本多模态能力进行了评测。

GPT-4o 到底有多强？模型图文多模态能力评测结果全公开-AI.x社区

OpenAI 官方公布的视觉理解性能

基于多模态大模型开源评测工具 VLMEvalKit，我们在 Open VLM Leaderboard 中的十二个图文多模态评测集上测试了 GPT-4o 的视觉能力。

GPT-4o 到底有多强？模型图文多模态能力评测结果全公开-AI.x社区

GPT-4o (20240513) 与此前的 GPT-4v 版本在各个多模态测试集上的性能对比

在各个通用图文多模态评测数据集 (MMBench, MME, SEEDBench, MMStar 等) 上，GPT-4o 相比上一版本的 GPT-4v 均有不同程度的提升。其中在更具挑战性的 MMStar，中文测试集 CCBench，MMBench_CN 等上面的提升尤其显著。

在基于GPT-4主观打分的MMVet与LLaVABench上，GPT-4o 相比上一版本的 GPT-4v 有微小下降，目前猜测是由于 GPT-4 打分的随机性所致。

在强推理的多模测试集 (MMMU, MathVista 等) 上，GPT-4o 相比上一版本的 GPT-4v 有一定提升，但比较微小。

在幻觉多模测试集 HallusionBench 上，GPT-4o 相比上一版本的 GPT-4v 有显著提升。

总结

GPT-4o 的客观性能相比 GPT-4v (0409) 有了更进一步的提升，在所有测试集上的平均分提升约 3 分；
GPT-4o 显示了更强的感知能力与更少的幻觉；
GPT-4o 的中文能力得到了较大的提高。

需要注意的是，由于 OpenAI 设置的规则，GPT-4o 在解答部分评测集中问题的时候，会出现拒答的现象。这一点导致 GPT-4o 的真实性能可能较我们报告的性能更强。

GPT-4o 的详细评测结果已上线至Opencompass官网及Open-VLM-Leaderboard，欢迎大家访问查看更详细的评测数据！

GPT-4o 到底有多强？模型图文多模态能力评测结果全公开-AI.x社区

Opencompass官网：

https://opencompass.org.cn/

Open-VLM-Leaderboard：

https://huggingface.co/spaces/opencompass/open_vlm_leaderboard

本文转载自司南评测体系，作者： OpenCompass 司南

标签

GPT-4o

模型

图文

相关推荐

OpenAI模型终于更新！强大视听能力的GPT-4o将面向所有用户，其前身正是神秘的gpt2！

51CTO技术栈 • 4211浏览 • 0回复
GPT-4o 的数学又双叕进步了？来 MathBench 看看新版 GPT-4o 到底强在哪！

恋恋青鸟 • 4542浏览 • 0回复
GPT-4o热潮来袭：探索图生文本的奥秘（多模态大模型系列之一）

鱼虫子 • 9345浏览 • 0回复
GPT-4o做Code Review可行吗？

51CTO技术栈 • 4743浏览 • 0回复
GPT-4o与SQL：大模型改变自身架构的能力有多强？

51CTO技术栈 • 3311浏览 • 0回复
GPT-4o背后可能的语音技术

鱼虫子 • 4302浏览 • 0回复
GPT-4o们其实都是眼盲！OpenAI奥特曼自曝自家模型：推理比人弱。研究证明：多模态能力还差得远，杨立昆上大

51CTO技术栈 • 3049浏览 • 1回复
13.11 和 13.8 到底哪个大？超过一半 AI 大模型回答错误，强如 GPT-4O 也翻车了

wsp_ping • 5187浏览 • 0回复
长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开源模型不如瞎蒙

duhorse • 4135浏览 • 0回复
多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

十一月雨_55 • 1.2w浏览 • 0回复
超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

Aceryt • 3535浏览 • 0回复
LLM合集：港大利用GPT-4o生成QA对，打造大规模多模态视频思维链（COT）数据集

AIPaperDaily • 4525浏览 • 0回复
微软发布Phi-4，最强小模型！参数极小、超GPT-4o

Aceryt • 3182浏览 • 0回复
微软开源最强小模型Phi-4，超GPT-4o、可商用

Aceryt • 3357浏览 • 0回复
GPT-4o图像生成能力全揭秘：背后竟藏自回归+扩散架构？北大&中山等开源GPT-ImgEval

angel • 3757浏览 • 0回复
GPT-4o(多模态版)、Claude3.7、Gemini2.5最新系统提示词！

云中江树 • 2953浏览 • 0回复
多模态图像生成新宠 Janus-4o？ShareGPT-4o-Image 打造数据集新标杆，将图像生成与 GPT-4o 对齐

AIGCStudio • 1923浏览 • 0回复
CLIP：打通图文壁垒的多模态神器，原理与实战全解析

鸿煊的学习笔记 • 7938浏览 • 0回复
GPT-4o-Audio-Preview 多模态语音交互模型介绍+API的使用教程！

唐克 • 2907浏览 • 0回复

恋恋青鸟

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

GPT-4o 到底有多强？模型图文多模态能力评测结果全公开

总结

目录

51CTO

51CTO博客

51CTO学堂

GPT-4o 到底有多强？模型图文多模态能力评测结果全公开

总 结

目录

总结