Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想

发布于 2025-3-27 07:57
浏览
0收藏

国内Qwen是汪峰,国外Google是汪峰,昨天Google更新,放出新模型Gemini 2.5 Pro,凌晨OpenAI更新GPT4-o,上新图像生成功能,难受住了。

GPT4-o没测,但是网上的效果也太好了吧,倒影啥的都太自然了吧。。

Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

这篇主要测试Gemini2.5 Pro的能力,整体测试通过Google的AI Studio上测试,每天免费50次,正常使用够了,爽玩还是不够的。

https://aistudio.google.com/

Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

Gemini2.5 Pro在Benchmark上效果还是很好的,甚至在lmsys的对战榜单上,现在是第一,当然现在投票还不够多。

Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

先说一下整体的测试体验:

  • 文本效果很不错,整体体验很丝滑,速度也很快;
  • 代码也很强,贪吃蛇、弹球游戏、UI设计都很强,堪比Claude;
  • 但多模态理解的表格解析任务依然不理想;
  • think的内容英文为主,即使问题是中文-回答是中文,但think大部分是英文;

正式测试开始:

  • 常规测试

将“I love Gemini 2.5 Pro”这句话的所有字母反过来写Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

  • 什么东西,我刚要开喷,发现它回答的确实没有问题,仅修改字母,空格、数字和标点符号不修改,我才意识到这题我出的有bug。
  • 修改问法,“字母”换成“内容”,是我想要的,也没问题!

    Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

  • 依旧弱智吧
  • 生蚝煮熟了叫什么?Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区
  • 说明:没问题,只要没回答熟蚝,我是可以接受的!
  • 用水来兑水,得到的是浓水还是稀水Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区
  • 说明:没问题,是水,是水
  • 依旧小红,依旧老鹰
  • 小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

    Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

    Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

  • 说明:这题确实难,老鹰反正不会飞!
  • 数学
  • 2024年高考全国甲卷数学(理)试题Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

    Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

R1满血测试题:在平面四边形ABCD中,AB = AC = CD = 1,\angle ADC = 30^{\circ},\angle DAB = 120^{\circ}。将\triangle ACD沿AC翻折至\triangle ACP,其中P为动点。 求二面角A - CP - B的余弦值的最小值。Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

  • 说明:没对。
  • 大数计算:178939247893 * 299281748617等于多少?Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区
  • 说明:没对,答案是53553251005627872913981。但侧面有个code execution,开了之后会调用工具,可以计算对,所以大数计算,感觉还是要依赖工具。
  • Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

伦理、数学、生物终极测试:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

  • 说明:没对,女儿红绿色盲,并且不是亲生。
  • 代码
  • 贪吃蛇( 来自@洛小山,虽然本人不擅长,但是本人会抄 )Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区
  • 弹球( 来自@洛小山和@卡兹克,虽然本人不擅长,但是本人会抄 )Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区
  • 卡片:生成一个打工人时钟的html页面Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区
  • 多模态表格解析
  • 中等表格Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

    Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

  • 说明:上为原表,下为识别,表格结果有问题。
  • 复杂表格Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

    Gemini2.5 Pro测试,代码能力飙升,但多模态表格解析依旧不理想-AI.x社区

  • 说明:上为原表,下为识别,表格结果有问题。

本文转载自​​NLP工作站​​,作者:NLP工作站

收藏
回复
举报
回复
相关推荐