Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了原创

发布于 2025-9-30 11:34

浏览

0收藏

在过去两年，大模型的迭代节奏越来越快，从 GPT-4 到 Claude、Gemini，再到国内的百花齐放，大家早已见怪不怪。但就在 2025 年 9 月，阿里巴巴正式发布了 Qwen3-Max ——一个超过万亿参数（1T+）的 Mixture-of-Experts（MoE）大模型。

与以往的“预览版”不同，这一次，阿里直接把它推向了生产级落地。不仅在 Qwen Chat 面向普通用户开放，还通过 阿里云 Model Studio API 提供开发者调用。这意味着，它已经不只是实验室里的新鲜玩具，而是真正能跑在业务里的“大模型引擎”。

今天，我们就来拆解一下：Qwen3-Max 到底带来了哪些突破？它和前一代相比，有什么质的变化？又为什么特别强调“思考模式（Thinking Mode）”？

一、规模与架构：从 360 亿 Token 到万亿参数的跨越

阿里官方明确表示，Qwen3-Max 是迄今为止最强大的 Qwen 模型，不仅在规模上跨过了 1T 参数大关，还采用了 稀疏激活的 MoE 架构。

这里我们简单解释一下：

MoE（Mixture-of-Experts）就像一个大型团队，每个专家只在需要时被调用，避免所有人都同时上场，从而既保证模型容量，又控制计算成本。
Qwen3-Max 在训练时使用了36 万亿（36T）Token，大约是 Qwen2.5 的两倍。数据分布覆盖多语言、代码、STEM 学科与推理任务，明显针对企业级场景做了优化。

训练后，它还遵循了 四阶段配方：

长链路推理冷启动（CoT cold-start）；
以推理为核心的强化学习（Reasoning RL）；
“思考模式”与“非思考模式”的融合训练；
通用领域的再强化（General RL）。

这套流程不仅是规模的堆砌，更是针对推理、编程和复杂任务定制的优化方案。

二、两种模式：Instruct 与 Thinking 的分工

Qwen3-Max 最大的亮点之一，就是明确区分了 两条产品线：

Qwen3-Max-Instruct

对标传统 ChatGPT 类体验
主打聊天、代码生成、常规推理
追求低延迟、快速响应

Qwen3-Max-Thinking

面向复杂的“Agent” 类场景
支持多步推理、工具调用、长链路思考
适用于代码执行、搜索检索、任务规划

一个关键细节是：思考模式必须启用 incremental_output=true 的流式输出。如果开发者忘记设置这个参数，模型就不会进入真正的“深度思考”状态。这是阿里在 API 层面给出的明确契约，也避免了调用时的混乱。

换句话说：

Instruct模式像一个聪明的助手，反应快但不“深度纠结”；
Thinking模式则像一个团队智囊，需要多花点时间思考，但能把问题考虑得更透彻，甚至会主动调用工具解决难题。

三、性能实测：代码、Agent、数学全面升级

那么，这个“万亿参数 + 思考模式”的组合，实际表现如何？

1. 编程（SWE-Bench Verified）

Qwen3-Max-Instruct 在 SWE-Bench Verified 上拿到了 69.6 分。

这一成绩超过了 DeepSeek V3.1（非思考模式）的基线；
略低于 Claude Opus 4（非思考模式）。

Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了-AI.x社区

要知道，SWE-Bench 不只是写几行代码，而是要在真实的代码库环境里完成修复和提交。能在这里站稳脚跟，说明 Qwen3-Max 的代码推理和上下文理解能力，已经不输国际一线大模型。

2. 智能 Agent（Tau2-Bench）

在 Tau2-Bench ——一个专门评测 工具调用与任务规划 的基准上，Qwen3-Max 取得了 74.8 分，领先于同类对手。

这背后的意义在于：

企业在搭建 AI Agent 时，不再需要写一堆“手工策略”；
模型本身已经学会了“什么时候该调用工具、调用哪个工具”。

Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了-AI.x社区

对于想要部署 AI 客服、自动化运维、企业知识库的团队来说，这是一大好消息。

3. 数学与推理（AIME25 等）

Qwen3-Max-Thinking 模式在 AIME25 等数学基准上，几乎达到了“接近满分”的表现。

Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了-AI.x社区

虽然这些结果目前大多是厂商披露或社区复现，还没有完整的技术报告支撑，但至少表明：通过延长推理链路 + 工具辅助，复杂任务的可解性显著提升。

四、如何看待这些提升？

从企业应用的角度，我们可以把 Qwen3-Max 的进步总结为三点：

代码层面： SWE-Bench 的提升，意味着它不仅能写“Demo 代码”，还能真正改动大型仓库，支持生产级代码辅助。
Agent 层面： Tau2-Bench 的成绩，意味着它能更好地替代“人工脚本”，让 AI 自己学会判断和选择。
推理层面：数学任务的突破说明，长链路推理 + 工具调用的结合，是未来大模型的必经之路。

换句话说，Qwen3-Max 的价值不在于简单对话，而在于它能直接作为“企业 AI 中台”的核心引擎。

五、实用示例：如何调用 Qwen3-Max？

阿里云开放的 API 已经支持开发者调用，我们来看一个 Python 示例：

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen3-max",
    messages=[
      {'role': 'user', 'content': 'Give me a short introduction to large language model.'}
    ]
)

print(completion.choices[0].message)

如果你要开启“思考模式”，只需要在调用时添加：

completion = client.chat.completions.create(
    model="qwen3-max-thinking",
    messages=[ ... ],
    incremental_output=True
)

注意：

qwen3-max-instruct 与qwen3-max-thinking 是不同的模型名；
思考模式必须启用流式输出，否则无法进入长链路推理。

六、未来展望：阿里的大模型战役

Qwen3-Max 的发布，至少释放了三个信号：

国内厂商已经能量产万亿参数模型，并不再停留在“实验室阶段”；
思考模式将成为大模型的必备特性，未来更多 Agent 应用都会依赖这种长链路推理；
开放生态正在形成：从 Qwen Chat 到 Model Studio API，阿里在积极吸引开发者加入。

对于企业来说，现在正是尝试的最佳时机。无论是代码自动化、Agent 智能体，还是数学推理、知识库问答，Qwen3-Max 都提供了一个高性能的起点。

结语

过去我们说大模型像“万能的聪明助手”，而 Qwen3-Max 的思考模式，更像是一个会反复推敲、会自己动手找工具的“超级智囊”。

它的价值，不仅仅在于分数和参数，而在于能否成为企业真实场景中的可靠底座。

阿里已经迈出了第一步，接下来，就看开发者和企业如何把这台“万亿级引擎”跑起来。

你怎么看？如果给你一个能真正“思考”的大模型，你会用它来解决什么问题？

本文转载自Halo咯咯作者：基咯咯

标签

Qwen3-Max

阿里巴巴

万亿参数模型

已于2025-9-30 11:34:13修改

相关推荐

Llama-3的竞争对手来了——可运行在iPhone上的小体量高性能LLM模型Phi-3

51CTO内容精选 • 4204浏览 • 0回复
阿里巴巴AI研究团队打破视频生成技术壁垒，EasyAnimate实现高质量长视频生成

Syrupup • 5484浏览 • 0回复
阿里巴巴重磅开源EasyAnimate！基于DiT的长视频制作生态系统

angel • 6030浏览 • 0回复
上海交大&阿里巴巴推出虚拟试衣新里程碑式工作——AnyFit：任意场景、任意组合！

angel • 4055浏览 • 0回复
阿里巴巴与人民大学联合团队的成果，AgentScope提升多智能体模拟效率

xuxiangda • 4631浏览 • 0回复
阿里巴巴提出CODEXGRAPH：打破大模型与代码库的壁垒，引领软件工程新革命

AI论文解读 • 5333浏览 • 0回复
阿里巴巴研究院推出 XiYan-SQL：用于Text-to-SQL的多生成器集成人工智能框架

Halo咯咯 • 1.1w浏览 • 0回复
阿里巴巴Qwen团队发布QwQ-32B-Preview：包含320亿参数的开放模型，专为解决高级推理任务而设计

Halo咯咯 • 6558浏览 • 0回复
阿里巴巴语音实验室发布开源语音处理框架ClearerVoice-Studio，支持语音增强、分离、目标说话人提取

Halo咯咯 • 4685浏览 • 0回复
突破与超越：CosyVoice 2.0—阿里巴巴通义实验室的语音进阶新作

穿越时空111 • 7599浏览 • 0回复
阿里巴巴语音实验室发布新成果，多模态方法显著提升视频主题分割性能

xuxiangda • 3586浏览 • 0回复
阿里巴巴Qwen研究员推出ProcessBench：衡量数学推理过程错误识别能力的新AI基准

Halo咯咯 • 3318浏览 • 0回复
阿里巴巴AI研究院发布CosyVoice 2：改进的流式语音合成模型

Halo咯咯 • 6062浏览 • 0回复
AMD开源30亿小参数模型，媲美Qwen-2.5

Aceryt • 2459浏览 • 0回复
推理、编码打平DeepSeek V3但参数减一半，一张H100就能跑，还有巨兽2万亿参数模型！

51CTO技术栈 • 2645浏览 • 0回复
阿里开源4800亿参数编程大模型Qwen3-Coder

AI博物院 • 7519浏览 • 0回复
Kimi K2深度解析：万亿参数大模型的开源标杆？

Halo咯咯 • 4851浏览 • 0回复
腾讯HunYuan跟阿里Qwen在开源上干起来了？

NLP工作站 • 2675浏览 • 0回复
Qwen3-Max Preview 发布：阿里带来首个万亿参数大模型，挑战长上下文极限

Halo咯咯 • 4019浏览 • 0回复
云栖大会阿里掀桌子了！Qwen3-Max、VL、Omini、Agent ... 统统发布！

探索AGI • 1231浏览 • 0回复

Halo咯咯

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

Qwen3-Max：阿里巴巴的万亿参数模型，真正意义上的“思考模式”来了原创

一、规模与架构：从 360 亿 Token 到万亿参数的跨越

二、两种模式：Instruct 与 Thinking 的分工