鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

智谱AI开源GLM-4.5V：多模态推理能力全面升级，64K上下文解析长文档原创

发布于 2025-8-15 07:39

浏览

0收藏

在AI界，视觉与语言的融合一直被视为迈向通用人工智能的重要一步。最近智谱AI正式开源了最新一代多模态模型——GLM-4.5V，并将其MIT协议开放给全球开发者。这不仅是一次性能升级，更是一次能力版图的拓展，让多模态AI真正走向可落地、可规模化的应用阶段。

全能的视觉推理能力

GLM-4.5V的核心，是在复杂视觉场景中做出精准、上下文关联的理解。

图像推理：能同时分析多张图片，理解其中的空间布局和元素关系，例如识别工业产品瑕疵、根据地理特征推断位置，甚至跨图像进行情境推理。
视频理解：内置3D卷积视觉编码器，可处理长视频，自动分段、识别细微事件，适用于影视分镜、体育分析、安防回放等场景。
空间推理：创新引入3D-RoPE（旋转位置编码），提升三维空间感知能力，对AR/VR、机器人视觉等尤为关键。

智谱AI开源GLM-4.5V：多模态推理能力全面升级，64K上下文解析长文档-AI.x社区

从GUI到RPA：多模态Agent的新玩法

GLM-4.5V不仅看得懂图片和视频，还能“看懂”屏幕。

界面阅读与图标识别：识别桌面或应用界面元素，精确定位按钮、菜单、图标，为RPA自动化和无障碍辅助提供技术基础。
桌面操作规划：基于视觉理解生成操作步骤，帮用户完成复杂的软件导航和批量任务。

这意味着，未来数字助理不仅能“听你说”，还可以“看你做”，并主动接手你的操作。

复杂图表与长文档解析

信息密集型行业（如金融、科研、法律）一直是多模态AI落地的难点，而GLM-4.5V在这方面的突破尤为显著。

图表解析：可从PDF、PPT中的复杂图表中提取结论与结构化数据，即便信息密度极高也能高效分析。
长文档理解：支持64K多模态上下文，一次性解析带有大量图片的长文档，生成摘要或结构化输出，非常适合商业情报、合规审查等任务。

精准定位与视觉锚定

不同于传统依赖像素匹配的检测，GLM-4.5V结合世界知识与语义理解，能更准确地在图像中定位目标。这为质量检测、增强现实、零售视觉分析等领域带来了高精度的自动化能力。

高效架构与推理模式切换

在技术底层，GLM-4.5V采用混合专家（MoE）架构，总参数量高达1060亿，但推理时只激活120亿，兼顾精度与推理成本。此外，还引入了推理模式切换（Thinking Mode）：

ON模式：深度逐步推理，适合逻辑复杂、链路长的任务；
OFF模式：快速直达答案，用于简单问答或信息检索。

这种“可调推理深度”的设计，赋予了用户在速度与严谨性之间的自主选择权。

实测表现与落地案例

性能成绩单：在41-42个公开多模态基准测试（如MMBench、AI2D、MathVista等）上，GLM-4.5V均取得SOTA表现，部分项目甚至超越部分商用闭源模型。
真实应用：从制造业的缺陷检测、到金融报告自动分析，再到无障碍阅读工具，企业与研究机构已经在多领域验证了其可行性与商业价值。

智谱AI开源GLM-4.5V：多模态推理能力全面升级，64K上下文解析长文档-AI.x社区

为什么这次开源意义重大？

过去，具备如此多模态推理能力的模型，大多被锁在商业API背后。智谱AI选择用MIT协议开放源码，意味着全球开发者和企业可以零门槛接入、部署和定制这一能力。这不仅降低了技术门槛，也可能在未来催生出新一波多模态AI的创新应用。

本文转载自Halo咯咯作者：基咯咯

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

多模态大模型

已于2025-8-15 07:39:52修改

赞

收藏

回复

举报

回复

相关推荐

基于开源AI数据框架LlamaIndex构建上下文增强型LLA应用

51CTO内容精选 • 5822浏览 • 0回复
长上下文能力只是吹牛？最强GPT-4o正确率仅55.8%，开源模型不如瞎蒙

duhorse • 4059浏览 • 0回复
又见神仙打架，全面超越快手可灵？智谱AI联合清华发布CogVideoX | 技术报告解析

angel • 5121浏览 • 0回复
多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

十一月雨_55 • 1.2w浏览 • 0回复
HiQA：一种用于多文档问答的层次化上下文增强RAG

大模型自然语言处理 • 3253浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 5830浏览 • 0回复
基于多模态大语言模型的上下文目标检测

AIRoobt • 4048浏览 • 0回复
微软LongRoPE v2：几乎无损的上下文扩展！

NLP前沿1 • 3041浏览 • 0回复
Llama 4 凌晨震撼发布：Meta开源最强MoE多模态模型，1000万上下文碾压行业！

AI博物院 • 3108浏览 • 0回复
LLaMA 4深度解析：多模态、长文本与高效推理，AI模型的“全能战士”诞生了！

Halo咯咯 • 3520浏览 • 0回复
智谱开源多模态推理新王者！9B参数挑战72B巨头

算家计算 • 2161浏览 • 0回复
Kimi K2发布：1万亿参数，128K上下文，还能跑17个工具流程？

Halo咯咯 • 7712浏览 • 0回复
Zhipu AI刚刚发布了GLM-4.5系列：重新定义带有混合推理的开源代理AI

Halo咯咯 • 4759浏览 • 0回复
GLM-4.5：推理、编程与Agent能力的全面突破

sbf_2000 • 3750浏览 • 0回复
GLM-4.5V多模态核心架构设计和训练数据构建速览

大模型自然语言处理 • 3656浏览 • 0回复
智谱开源的GLM4.5V到底行不行？掏出祖传多模态理解测试！

NLP工作站 • 2744浏览 • 0回复
智谱GLM-4.5V开源即巅峰，42项SOTA碾压全场，多模态一键秒杀

穿越时空111 • 3062浏览 • 0回复
直面 GPT-4：GLM 4.5 如何凭开源+代理能力逆袭？

Halo咯咯 • 735浏览 • 0回复
上下文工程：2025 年最核心的能力

玄姐聊AGI • 472浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

阿里开源 Tongyi DeepResearch：科研智能体能力首次追平 OpenAI 0回复

Google 发布 TimesFM-2.5：更小、更强、更长上下文的时间序列基础模型 0回复

Grok-4-Fast：让推理更便宜、更快、更普惠的 AI 0回复

NeurIPS'25 智能体最新技术即时洞察：6大方向、代表论文、发展趋势 0回复

上一篇：大厂面试官最爱问的20个机器学习核心问题，别再背概念了，这篇全是实战干货！

下一篇： Liquid AI 再出手！LFM2-VL 把多模态 AI 装进手机与手表，推理速度翻倍

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载