
服了!没想到,GLM-4.1V-Thinking竟然把这些问题都答对了!
大家好,我是刘聪NLP。
最近开源社区好起来了,先是华为、百度、腾讯,相继开源模型,
然后昨天智谱又开源了模型,GLM-4.1V-Thinking,又是被刷屏朋友圈了!
但是说实话,一开始因为这个标题,我都不想测试GLM-4.1V-Thinking了,感觉就很夸张,并且一猜就是干掉了Qwen-2.5-VL-72B。
PS:我Qwen天天被吊打!!
不过,有个好友非要让我测一下,因为他告诉我,我之前的表格识别,这个9B模型好像可以了。
不测不知道,一测吓一跳,没想到真出来了!!
每次有多模态大模型,我基本上都会测试一下,没想到GLM-4.1V-Thinking竟然还可以。
懒人不爱看版:
- 表格识别效果还可以,大部分表格可以完全识别正确,个别会有一些瑕疵,但已经很强了!
- 图像理解+计算不错,可以准确识别图片内容,并进行理解;
- 多模态做题一般,感觉数学题上,不如纯文本大模型效果好;
- 可以通过网站截图进行1:1复刻,9B模型可以做到,真没想到;
- OCR手写体识别也还可以,不过那个经常错的连体字,没有识别出来;
- 在我测试的一些任务上,是可以对标Qwen-2.5-VL-72B的,但模型尺寸依然感觉还是小了,太复杂的任务效果不一定优于72B。
- 但因为9B,模型部署成本小了太多,同尺寸模型中,现在应该是Top级别。
实测样例
表格识别
## Role
你是一位有多年经验的OCR表格识别专家。
## Goals
需要通过给定的图片,识别表格里的内容,并以html表格结果格式输出结果。
## Constrains
- 需要认识识别图片中的内容,将每个表格单元格中的内容完整的识别出来,并填入html表格结构中;
- 图片中的表格单元格中可能存在一些占位符需要识别出来,例如"-"、"—"、"/"等;
- 输出表格结构一定遵循图片中的结构,表格结构完全一致;
- 特别注意图片中存在合并单元格的情况,结构不要出错;
- 对于内容较多的图片,一定要输出完整的结果,不要断章取义,更不要随意编造;
- 图片内容需要完整识别,不要遗漏,同时注意合并单元;
- 最终输出结果需要是html格式的表格内容。
## Initialization
请仔细思考后,输出html表格结果。
简单表格,结果:完全正确
原表格
生成结果
中等表格,结果基本上正确,只有最后的“观察检查”处,将一个单元格分成了两个,其他没有问题。
原表格
生成结果
复杂表格,结果完全正确,这个我是万万没想到的,这种犬牙交错的单元格合并,9B模型竟然识别对了,有点强!
原表格
生成结果
识别计算
prompt:请逐步详细分析,告诉我在中文数据和英文数据分别占比是多少,并且告诉我总和
结果:正确,77.71%,没问题
手写识别
prompt:请逐步详细分析,输出图片中的文字内容
结果:错了一个字,“娶”->“要”,不过这个字,好多多模态大模型都识别成“要”,不知道为什么,但是从语义上,不应该,一直没有想明白。
高考考题
prompt:解题
结果:最后一问错了,是3√3+3√2,不是√10+3,其他正确,但是现在大参数的大模型都能对,毕竟现在很多130+、140+的模型了。
我也测试了一些其他的题,感觉回答的总会有点瑕疵,不知道是不是我的图片不清晰导致的,后面我再测测看。
网页复刻
截个魔搭的首页,之间让GLM-4.1V复刻
prompt:请1:1复刻图片中的网页内容
结果,基本上是1:1复刻的,9B模型做到这一步,很强了。
原网站图
复刻结果
说实话,整体测试效果我还是有点震惊的,不看榜单效果,但看能不能用这一点来说,GLM-4.1V-Thinking模型还是可以的,并且9B大小,本地部署也是十分友好了。
论文细节
因为同步发了paper,最后再过一下论文的细节。
paper: https://arxiv.org/abs/2507.01006
Github:https://github.com/THUDM/GLM-4.1V-Thinking
HF:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
魔搭体验链接:https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo
模型结构
模型由视觉编码器、多层感知机适配器、大语言模型解码器组成,如下图,其中,将AIMv2-Huge 作为视觉编码器,将 GLM 作为语言解码器。
视觉编码器,采用Qwen2-VL策略,将原始的2D卷积替换为3D卷积,有效提升了处理效率。同时为了支持任意图像分辨率和宽高比,做了两个优化,
- 采用2D-RoPE,使模型能够有效处理具有极端宽高比(超过200:1)或高分辨率(超过4K)的图像;
- 保留了可学习绝对位置嵌入,并通过双三次插值方式在训练过程中动态适配不同分辨率输入,以保留ViT预训练模型的原有能力。
语言解码器,将RoPE扩展到3D-RoPE,在保留模型文本能力的前提下,又进一步增强了模型在多模态输入处理中的空间理解能力。
Pre-Training
预训练涉及两个阶段,
- 多模态预训练,初始阶段对所有参数进行120K步骤训练,最大长度8K,Batch大小1536,同时采用数据样本拼接打包策略,将文本扩展到最大长度,以充分利用资源。
- 长上下文增量训练,通过使用视频和超过8K长度的图文数据训练,以增加模型对高分辨率图像、视频序列和超长文本的处理能力,最大长度32K,训练10K步,Batch依然为大小1536。
在预训练过程中,使用的数据包含图像字幕、交错图文、OCR、Grounding、指令响应、视频数据等数据。
Supervised Fine-Tuning
微调阶段,将基础视觉语言模型转变为能够进行CoT推理模型,让模型学习推理风格,增强模型冷启动基础。
模型训练最大长度32K,Batch大小32,训练数据涉及多模态数据外,还有高质量的纯文本数据,覆盖数学、多轮对话、代理和指令遵循等任务。
RL
采用可验证奖励强化学习 (RLVR) 和人工反馈强化学习 (RLHF),并且通过课程采样方法,在STEM 问题、学字符识别 (OCR)、视频理解、GUI 代理、图表和文档理解、逻辑推理、指令遵循等任务上,进行由简单到复杂的动态强化学习训练。
对于RLVR,要求模型明确用框标记来标记最终答案,同时只将框内的内容与参考答案进行比较,以解决通过LLMs进行提取出现的不准确性。并且使用<|begin_of_box|>{FINAL_ANSWER}<|end_of_box|>来标记答案,而不是\boxed{}。
同时,为了避免奖励欺骗,建立领域特定的奖励系统,包括共享验证功能、领域特定模块和单元测试。
除此之外,还建立了格式和风格检查的奖励系统,格式就是答案是否被<|begin_of_box|>和<|end_of_box|>包裹,风格就是think或answer内容是否由大量重复内容、或者是否符合指令、流畅、逻辑严谨等。
最后,榜单效果,
写在最后
这次测试GLM-4.1V-Thinking,真的让我对“9B模型的上限”重新有了认识。
说实话,它不是没有缺点,有些题也还是答错了,但在表格识别、网页复刻这些任务上能跑的这么好,真是很难得。
而且,9B!可以本地部署、部署成本低、延迟也小,那它的实际价值就不止是“效果好”那么简单了。对于很多开发者来说,自己电脑就能部起来,这才是真正能“用起来”的。
我后面会试试在我自己垂类任务和真实业务中的效果如何,
实践是检验真理的唯一标准,如果你也需要使用多模态模型,不妨亲自试试,好坏在各自的心中。
本文转载自NLP工作站,作者:NLP工作站
