GLM-4.5:推理、编程与Agent能力的全面突破

发布于 2025-8-1 07:05
浏览
0收藏

GLM-4.5核心特性概览:

•MoE 架构

•混合推理模型

•总参数 355B(激活参数 32B)

•GQA + 部分 RoPE

•多 Token 预测

•Muon 优化器 + QK 归一化

•22T Token 训练语料

•Slime RL 基础设施

•原生工具调用


GLM-4.5:推理、编程与Agent能力的全面突破-AI.x社区图片


GLM-4.5:推理、编程与Agent能力的全面突破-AI.x社区图片

模型架构与预训练:GLM-4.5 总参数规模达 355B(激活参数 32B),采用更深但更窄的模型设计,通过增加层数和 96 个注意力头来优化推理能力。轻量版 GLM-4.5-Air 为 106B 参数(激活参数 12B)。


GLM-4.5:推理、编程与Agent能力的全面突破-AI.x社区图片

训练语料库规模达 22T Token,其中包含 15T 通用数据和 7T 代码/推理专用数据。采用分组查询注意力(GQA)+ 部分旋转位置编码(RoPE)来提升长上下文处理效率和推理任务准确性。

中期训练的关键作用: "与早期在大规模通用文档上进行预训练不同,这些阶段采用中等规模的领域特定数据集,包括指令数据。"

其他设计亮点:多 Token 预测(MTP):支持推测解码,实现更快的推理速度。;Muon 优化器 + QK 归一化:提升大批量训练的稳定性和可扩展性。

Slime RL 基础设施

•支持agent强化学习的异步推出与训练分离

•混合精度推出(FP8 推理,BF16 训练)提升效率


GLM-4.5:推理、编程与Agent能力的全面突破-AI.x社区图片

后训练流程:

•在推理和agent场景上进行监督微调

•针对推理(含课程学习)和agent任务(信息检索问答和代码执行)的强化学习

•专家蒸馏以整合专业技能


GLM-4.5:推理、编程与Agent能力的全面突破-AI.x社区图片

整体性能表现:GLM-4.5 总排名第三,GLM-4.5 Air 排名第六。

agent能力:这是个令人兴奋的结果!GLM-4.5 提供 128K 上下文长度和原生函数调用能力,性能可媲美 Claude 4 Sonnet!

测试时扩展:GLM-4.5 在 BrowseComp 上的测试时扩展准确率呈现健康的增长曲线。

推理性能:GLM-4.5 在多个推理基准测试中表现极具竞争力。这种稳定的性能表现尤为重要,因为统一各种能力是很难做到的。

编程能力:虽未达到 Claude 4 Opus 或 o3 的水平,但仍极具竞争力,明显优于 DeepSeek-R1-0528,与 Kimi-K2 处于同一水准。

帕累托前沿分析:"GLM-4.5 和 GLM-4.5-Air 相比同等规模的模型展现出卓越性能,在性能-规模权衡边界上实现了最优效率。"

真实场景表现:GLM-4.5 在真实开发场景中的agent编程表现令人印象深刻,相比 Kimi K2 和 Qwen-3 Code 的胜率表现亮眼。

其他能力特性

原生工具调用:通过集成函数调用和agent规划,工具调用成功率达 90.6%。

全栈开发agent:通过类似 Claude Code 的界面实现多轮agent编程,支持前端/后端开发、幻灯片制作和产出物生成。

本文转载自​​​​AI帝国​​​​,作者:无影寺

收藏
回复
举报
回复
相关推荐