服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!

发布于 2025-7-11 07:48
浏览
0收藏

大家好,我是刘聪NLP。

最近开源社区好起来了,先是华为、百度、腾讯,相继开源模型,

然后昨天智谱又开源了模型,GLM-4.1V-Thinking,又是被刷屏朋友圈了!

但是说实话,一开始因为这个标题,我都不想测试GLM-4.1V-Thinking了,感觉就很夸张,并且一猜就是干掉了Qwen-2.5-VL-72B。

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

PS:我Qwen天天被吊打!!

不过,有个好友非要让我测一下,因为他告诉我,我之前的表格识别,这个9B模型好像可以了。

不测不知道,一测吓一跳,没想到真出来了!!

每次有多模态大模型,我基本上都会测试一下,没想到GLM-4.1V-Thinking竟然还可以。

懒人不爱看版:

  • 表格识别效果还可以,大部分表格可以完全识别正确,个别会有一些瑕疵,但已经很强了!
  • 图像理解+计算不错,可以准确识别图片内容,并进行理解;
  • 多模态做题一般,感觉数学题上,不如纯文本大模型效果好;
  • 可以通过网站截图进行1:1复刻,9B模型可以做到,真没想到;
  • OCR手写体识别也还可以,不过那个经常错的连体字,没有识别出来;
  • 在我测试的一些任务上,是可以对标Qwen-2.5-VL-72B的,但模型尺寸依然感觉还是小了,太复杂的任务效果不一定优于72B。
  • 但因为9B,模型部署成本小了太多,同尺寸模型中,现在应该是Top级别。

实测样例

表格识别

## Role
你是一位有多年经验的OCR表格识别专家。

## Goals
需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。

## Constrains
- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;
- 特别注意图片中存在合并单元格的情况,结构不要出错;
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
- 图片内容需要完整识别,不要遗漏,同时注意合并单元;
- 最终输出结果需要是html格式的表格内容。

## Initialization
请仔细思考后,输出html表格结果。

简单表格,结果:完全正确

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

原表格

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

生成结果

中等表格,结果基本上正确,只有最后的“观察检查”处,将一个单元格分成了两个,其他没有问题。

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

原表格

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

生成结果

复杂表格,结果完全正确,这个我是万万没想到的,这种犬牙交错的单元格合并,9B模型竟然识别对了,有点强!

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

原表格

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

生成结果

识别计算

prompt:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和

结果:正确,77.71%,没问题

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

手写识别

prompt:请逐步详细分析,输出图片中的文字内容

结果:错了一个字,“娶”->“要”,不过这个字,好多多模态大模型都识别成“要”,不知道为什么,但是从语义上,不应该,一直没有想明白。

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

高考考题

prompt:解题

结果:最后一问错了,是3√3+3√2,不是√10+3,其他正确,但是现在大参数的大模型都能对,毕竟现在很多130+、140+的模型了。

我也测试了一些其他的题,感觉回答的总会有点瑕疵,不知道是不是我的图片不清晰导致的,后面我再测测看。

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

网页复刻

截个魔搭的首页,之间让GLM-4.1V复刻

prompt:请1:1复刻图片中的网页内容

结果,基本上是1:1复刻的,9B模型做到这一步,很强了。

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

原网站图

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

复刻结果

说实话,整体测试效果我还是有点震惊的,不看榜单效果,但看能不能用这一点来说,GLM-4.1V-Thinking模型还是可以的,并且9B大小,本地部署也是十分友好了。

论文细节

因为同步发了paper,最后再过一下论文的细节。

paper: https://arxiv.org/abs/2507.01006
Github:https://github.com/THUDM/GLM-4.1V-Thinking
HF:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
魔搭体验链接:https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

模型结构

模型由视觉编码器、多层感知机适配器、大语言模型解码器组成,如下图,其中,将AIMv2-Huge 作为视觉编码器,将 GLM 作为语言解码器。

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

视觉编码器,采用Qwen2-VL策略,将原始的2D卷积替换为3D卷积,有效提升了处理效率。同时为了支持任意图像分辨率和宽高比,做了两个优化,

  • 采用2D-RoPE,使模型能够有效处理具有极端宽高比(超过200:1)或高分辨率(超过4K)的图像;
  • 保留了可学习绝对位置嵌入,并通过双三次插值方式在训练过程中动态适配不同分辨率输入,以保留ViT预训练模型的原有能力。

语言解码器,将RoPE扩展到3D-RoPE,在保留模型文本能力的前提下,又进一步增强了模型在多模态输入处理中的空间理解能力。

Pre-Training

预训练涉及两个阶段,

  • 多模态预训练,初始阶段对所有参数进行120K步骤训练,最大长度8K,Batch大小1536,同时采用数据样本拼接打包策略,将文本扩展到最大长度,以充分利用资源。
  • 长上下文增量训练,通过使用视频和超过8K长度的图文数据训练,以增加模型对高分辨率图像、视频序列和超长文本的处理能力,最大长度32K,训练10K步,Batch依然为大小1536。

在预训练过程中,使用的数据包含图像字幕、交错图文、OCR、Grounding、指令响应、视频数据等数据。

Supervised Fine-Tuning

微调阶段,将基础视觉语言模型转变为能够进行CoT推理模型,让模型学习推理风格,增强模型冷启动基础。

模型训练最大长度32K,Batch大小32,训练数据涉及多模态数据外,还有高质量的纯文本数据,覆盖数学、多轮对话、代理和指令遵循等任务。

RL

采用可验证奖励强化学习 (RLVR) 和人工反馈强化学习 (RLHF),并且通过课程采样方法,在STEM 问题、学字符识别 (OCR)、视频理解、GUI 代理、图表和文档理解、逻辑推理、指令遵循等任务上,进行由简单到复杂的动态强化学习训练。

对于RLVR,要求模型明确用框标记来标记最终答案,同时只将框内的内容与参考答案进行比较,以解决通过LLMs进行提取出现的不准确性。并且使用<|begin_of_box|>{FINAL_ANSWER}<|end_of_box|>来标记答案,而不是\boxed{}。

同时,为了避免奖励欺骗,建立领域特定的奖励系统,包括共享验证功能、领域特定模块和单元测试。

除此之外,还建立了格式和风格检查的奖励系统,格式就是答案是否被<|begin_of_box|>和<|end_of_box|>包裹,风格就是think或answer内容是否由大量重复内容、或者是否符合指令、流畅、逻辑严谨等。

最后,榜单效果,

服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!-AI.x社区

写在最后

这次测试GLM-4.1V-Thinking,真的让我对“9B模型的上限”重新有了认识。

说实话,它不是没有缺点,有些题也还是答错了,但在表格识别、网页复刻这些任务上能跑的这么好,真是很难得。

而且,9B!可以本地部署、部署成本低、延迟也小,那它的实际价值就不止是“效果好”那么简单了。对于很多开发者来说,自己电脑就能部起来,这才是真正能“用起来”的。

我后面会试试在我自己垂类任务和真实业务中的效果如何,

实践是检验真理的唯一标准,如果你也需要使用多模态模型,不妨亲自试试,好坏在各自的心中。

本文转载自​​​​NLP工作站​​​​,作者:NLP工作站

收藏
回复
举报
回复
相关推荐