服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！

NLP工作站

发布于 2025-7-11 07:48

浏览

0收藏

大家好，我是刘聪NLP。

最近开源社区好起来了，先是华为、百度、腾讯，相继开源模型，

然后昨天智谱又开源了模型，GLM-4.1V-Thinking，又是被刷屏朋友圈了！

但是说实话，一开始因为这个标题，我都不想测试GLM-4.1V-Thinking了，感觉就很夸张，并且一猜就是干掉了Qwen-2.5-VL-72B。

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

PS：我Qwen天天被吊打！！

不过，有个好友非要让我测一下，因为他告诉我，我之前的表格识别，这个9B模型好像可以了。

不测不知道，一测吓一跳，没想到真出来了！！

每次有多模态大模型，我基本上都会测试一下，没想到GLM-4.1V-Thinking竟然还可以。

懒人不爱看版：

表格识别效果还可以，大部分表格可以完全识别正确，个别会有一些瑕疵，但已经很强了！
图像理解+计算不错，可以准确识别图片内容，并进行理解；
多模态做题一般，感觉数学题上，不如纯文本大模型效果好；
可以通过网站截图进行1：1复刻，9B模型可以做到，真没想到；
OCR手写体识别也还可以，不过那个经常错的连体字，没有识别出来；
在我测试的一些任务上，是可以对标Qwen-2.5-VL-72B的，但模型尺寸依然感觉还是小了，太复杂的任务效果不一定优于72B。
但因为9B，模型部署成本小了太多，同尺寸模型中，现在应该是Top级别。

实测样例

表格识别

## Role
你是一位有多年经验的OCR表格识别专家。

## Goals
需要通过给定的图片，识别表格里的内容，并以html表格结果格式输出结果。

## Constrains
- 需要认识识别图片中的内容，将每个表格单元格中的内容完整的识别出来，并填入html表格结构中；
- 图片中的表格单元格中可能存在一些占位符需要识别出来，例如"-"、"—"、"/"等；
- 输出表格结构一定遵循图片中的结构，表格结构完全一致；
- 特别注意图片中存在合并单元格的情况，结构不要出错；
- 对于内容较多的图片，一定要输出完整的结果，不要断章取义，更不要随意编造；
- 图片内容需要完整识别，不要遗漏，同时注意合并单元；
- 最终输出结果需要是html格式的表格内容。

## Initialization
请仔细思考后，输出html表格结果。

简单表格，结果：完全正确

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

原表格

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

生成结果

中等表格，结果基本上正确，只有最后的“观察检查”处，将一个单元格分成了两个，其他没有问题。

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

原表格

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

生成结果

复杂表格，结果完全正确，这个我是万万没想到的，这种犬牙交错的单元格合并，9B模型竟然识别对了，有点强！

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

原表格

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

生成结果

识别计算

prompt：请逐步详细分析，告诉我在中文数据和英文数据分别占比是多少，并且告诉我总和

结果：正确，77.71%，没问题

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

手写识别

prompt：请逐步详细分析，输出图片中的文字内容

结果：错了一个字，“娶”->“要”，不过这个字，好多多模态大模型都识别成“要”，不知道为什么，但是从语义上，不应该，一直没有想明白。

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

高考考题

prompt：解题

结果：最后一问错了，是3√3+3√2，不是√10+3，其他正确，但是现在大参数的大模型都能对，毕竟现在很多130+、140+的模型了。

我也测试了一些其他的题，感觉回答的总会有点瑕疵，不知道是不是我的图片不清晰导致的，后面我再测测看。

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

网页复刻

截个魔搭的首页，之间让GLM-4.1V复刻

prompt：请1：1复刻图片中的网页内容

结果，基本上是1:1复刻的，9B模型做到这一步，很强了。

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

原网站图

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

复刻结果

说实话，整体测试效果我还是有点震惊的，不看榜单效果，但看能不能用这一点来说，GLM-4.1V-Thinking模型还是可以的，并且9B大小，本地部署也是十分友好了。

论文细节

因为同步发了paper，最后再过一下论文的细节。

paper: https://arxiv.org/abs/2507.01006
Github：https://github.com/THUDM/GLM-4.1V-Thinking
HF：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
魔搭体验链接：https://modelscope.cn/studios/ZhipuAI/GLM-4.1V-9B-Thinking-Demo

模型结构

模型由视觉编码器、多层感知机适配器、大语言模型解码器组成，如下图，其中，将AIMv2-Huge 作为视觉编码器，将 GLM 作为语言解码器。

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

视觉编码器，采用Qwen2-VL策略，将原始的2D卷积替换为3D卷积，有效提升了处理效率。同时为了支持任意图像分辨率和宽高比，做了两个优化，

采用2D-RoPE，使模型能够有效处理具有极端宽高比（超过200:1）或高分辨率（超过4K）的图像；
保留了可学习绝对位置嵌入，并通过双三次插值方式在训练过程中动态适配不同分辨率输入，以保留ViT预训练模型的原有能力。

语言解码器，将RoPE扩展到3D-RoPE，在保留模型文本能力的前提下，又进一步增强了模型在多模态输入处理中的空间理解能力。

Pre-Training

预训练涉及两个阶段，

多模态预训练，初始阶段对所有参数进行120K步骤训练，最大长度8K，Batch大小1536，同时采用数据样本拼接打包策略，将文本扩展到最大长度，以充分利用资源。
长上下文增量训练，通过使用视频和超过8K长度的图文数据训练，以增加模型对高分辨率图像、视频序列和超长文本的处理能力，最大长度32K，训练10K步，Batch依然为大小1536。

在预训练过程中，使用的数据包含图像字幕、交错图文、OCR、Grounding、指令响应、视频数据等数据。

Supervised Fine-Tuning

微调阶段，将基础视觉语言模型转变为能够进行CoT推理模型，让模型学习推理风格，增强模型冷启动基础。

模型训练最大长度32K，Batch大小32，训练数据涉及多模态数据外，还有高质量的纯文本数据，覆盖数学、多轮对话、代理和指令遵循等任务。

RL

采用可验证奖励强化学习 (RLVR) 和人工反馈强化学习 (RLHF)，并且通过课程采样方法，在STEM 问题、学字符识别 (OCR)、视频理解、GUI 代理、图表和文档理解、逻辑推理、指令遵循等任务上，进行由简单到复杂的动态强化学习训练。

对于RLVR，要求模型明确用框标记来标记最终答案，同时只将框内的内容与参考答案进行比较，以解决通过LLMs进行提取出现的不准确性。并且使用<|begin_of_box|>{FINAL_ANSWER}<|end_of_box|>来标记答案，而不是\boxed{}。

同时，为了避免奖励欺骗，建立领域特定的奖励系统，包括共享验证功能、领域特定模块和单元测试。

除此之外，还建立了格式和风格检查的奖励系统，格式就是答案是否被<|begin_of_box|>和<|end_of_box|>包裹，风格就是think或answer内容是否由大量重复内容、或者是否符合指令、流畅、逻辑严谨等。

最后，榜单效果，

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！-AI.x社区

写在最后

这次测试GLM-4.1V-Thinking，真的让我对“9B模型的上限”重新有了认识。

说实话，它不是没有缺点，有些题也还是答错了，但在表格识别、网页复刻这些任务上能跑的这么好，真是很难得。

而且，9B！可以本地部署、部署成本低、延迟也小，那它的实际价值就不止是“效果好”那么简单了。对于很多开发者来说，自己电脑就能部起来，这才是真正能“用起来”的。

我后面会试试在我自己垂类任务和真实业务中的效果如何，

实践是检验真理的唯一标准，如果你也需要使用多模态模型，不妨亲自试试，好坏在各自的心中。

本文转载自NLP工作站，作者：NLP工作站

标签

GLM-4.1V-Thinkin

百度

腾讯

51CTO

51CTO博客

51CTO学堂

服了！没想到，GLM-4.1V-Thinking竟然把这些问题都答对了！

实测样例

表格识别

识别计算

手写识别

高考考题

网页复刻

论文细节

模型结构

Pre-Training

Supervised Fine-Tuning

RL

写在最后

目录