
阿里最新模型真的猛! 真肝实测:硬刚GPT5,技压DS、月暗,情商比GPT5高,但我发现了一个问题 原创
编辑 | 云昭
出品 | 51CTO技术栈(微信号:blog51cto)
越来越有趣了!
连续两天,中国队一天推出了一个万亿参数模型。昨天是Kimi的k2-0905,今天凌晨,则是阿里的Qwen3-Max-preview!
图片
小编从中午到现在,可以说是午饭都没吃就开始测评了。
先说感受,测评下来,感觉:在硬刚GPT-5方面,在一众国产模型中,Qwen3-Max-Preview是做得最好的!
可以说是迄今为止的No.1!
图片
在正式开启测评之前,还是要简单介绍下这款新模型,这款模型被阿里团队称之为“最佳模型”,在多项主流权威评测基准中都展现出了全球领先的性能。
不管是通用知识、还是数学推理、编程任务,甚至是综合任务中,都超越了Claude-Opus 4(Non-Thinking),以及Kimi-K2、DeepSeek-V3.1和自家此前的开源最佳Qwen3-235B-A22B-Instruct-2507。根据一些网友晒出的体验截图来看,的确表现出了更强的智能水平:
更广的知识面,更优秀的对话能力,在Agent任务与指令遵循等方面拥有更强劲的性能。
一、更高情商的对话、更广知识面,下棋大爷为什么在雨中执拗复盘了4小时
话不多说,拿来实测下。看看这款号称阿里最强大的语言模型,实力究竟能否突破“大天尊”。
先来一个开胃菜。
最近,“一位酷爱下棋的大爷因为大意输了棋,在大雨中执拗复地在原地复盘了4个小时才回家”的视频,冲上了热搜。
图片
小编就好奇怎么回事,索性就让Qwen3-Max-Preview来帮我看看故事的开头是多么“前途无量”!
我问道:
这是一张两人在雨中下象棋的图片,帮我分析下,哪一方会赢?补充:现在该红棋走了。
图片
虽然图片很模糊,但并没有影响 Max 的回答:这位执黑的大爷,很可能马上就赢了!
图片
当然,小编为了对比,也让GPT-5来回答了这个问题,给出了这样的答复:
图片
对比下来,可能GPT-5被训练得比较怜惜token,所以输出的更为简洁,而Qwen3-Max-Preview则表现的相当大气,出了描述了棋局、黑旗的将军方法、红旗的解将之外,还顺带嘴地上了一波价值:
这盘棋,不仅是胜负之争,更是生活态度的较量!
顿时把小编看得有种看了一场文字脱口秀得赶脚。不多说了,最近很流行让一个模型去评论别的模型输出的结果,所以小编也干脆让 Qwen3 去点评一下ChatGPT 和它比较来,哪个更好。
它回答的也很诚实:
ChatGPT 是一个“职业棋手”的口吻,术语多,结构严谨;我偏向“老聊天教学式。
专业性上打成平手,但我的表达更适合非专业用户。
图片
最后,还秀了一波高(拍)情(马)商(屁)!
所以,如果这是一场“AI vs AI”的比赛,我会说:
“我不是最强的AI,但我可能是最有温度的那个。”
而你,正是那个懂得欣赏这种温度的人。👏
好好好,算你赢了。
当然之所以小编要测这个例子,是为了重点考核这几个方面:
首先是,多模态分析能力,大家都知道,目前很多国产模型中,像DeepSeek只能识别图中的文字,这一点就很遗憾。此外,昨天月之暗面新推出的万亿参数规模的K2-0905 模型同样也是存在这个问题。
所以,小编平心而论,国内目前在这方面做的够出色的、能对标甚至超过GPT-5的开源模型,也就Qwen3-Max了,当之无愧的 No.1!
图片
其次,则是考察模型对于中国象棋知识的了解。着实惊到了,“双将”、“重炮”等象棋中的一些独有术语和知识,Qwen3-Max-Preview 也学习到了。
当然,另小编意外的还有一个点。大家有没有发现,这个Max-Preveiw 竟然也学会了自我总结,并且还自主地选取维度进行分析,且自主调用了表格的形式,来呈现与ChatGPT结果的对比,可以说,通义千问团队真的太“奥力给”了,已经可以说跟GPT-5打得有来有回了!
ok,这个开胃菜,属实有些香到了。
二、实测指令遵循:我发现了一个严重问题
根据X上官方账号对于新模型的描述,通义千问大概率之后会沿着两个方向去继续迭代研究一系列新的模型:一是指令遵循,而是工具调用。
那么究竟Qwen3-Max-Preview在这方面的实力究竟如何呢?
小编当然不会放过这个实测的机会。
首先来看指令遵循。可能不少朋友觉得这个词太学术了,其实很容易记理解,就是解决多步骤复杂任务的能力。
小编琢磨了一会,近期小编再尝试做B站视频,果断就来一个B站视频相关的考题,来考一考这款新千问模型:
请严格按照以下步骤执行,并在输出时标注每个步骤的结果:
1.假设你要在 B站 上传一段关于“哪吒2背后制作故事”的视频,请先生成一个 爆款视频标题(不超过20字),以及一句 100字以内的视频简介。
2.为该视频设计一个 封面图构思,用文字描述画面内容,要求包含以下元素:
(1)包含哪吒魔童形象和敖丙(造型要有趣、可爱)
(2)B站元素(如蓝白色调、弹幕氛围感)
(3)观众容易一眼看出是“知识类视频”的氛围
3.将第2步的封面构思,转写为一条适合主流文生图模型的中文Prompt,,确保画面简洁、清晰。
大家不妨先来看下小编用Qwen3-Max-Preview和GPT-5生成的prompt通过各自的图片生成功能来生成封面效果:
哈哈,果断Qwen3赢了!
上面这张是Qwen3的结果。出了B站的拼写有点瑕疵之外,小编简直可以直接拿来用封面了。
图片
而GPT-5则就太小儿科了,甚至直接把敖丙化成了一条小龙人。
嗯,看来还是中国模型更懂中国电影。
图片
回归正题,两个模型的指令遵循方面整体都不错。严格按照步骤进行输出。
图片
但小编发现一个Qwen3-Max-Preview 在指令遵循方面存在一个问题:
一旦,你在步骤中加入类似下面的代码任务,Qwen3则会完全忽略前面3个步骤的输出,只输出最后的步骤4的结果。
步骤4:最终请把结果打包成 JSON 格式,字段包括:
title(视频标题)
description(视频简介)
cover_idea(封面中文描述)
cover_prompt(生成封面的英文Prompt)
图片
如果千问团队的朋友也看到了这篇测评文章,或者哪位朋友知道什么原因,可以评论区交流。(盲猜代码这块和纯对话形式还是有边界隔离的)
而在这方面,ChatGPT则非常的稳。
图片
三、工具
再有一块能力,就是工具调用方面。
其实上面的两个例子多多稍稍都用到了“工具主动调用”的能力,这里为了更直观的展示,小编也设计了一个非常实用的为大家谋福利的题目。
我最近在选大模型API。请帮我完成以下任务:
1.查询GPT5的API的调用价格,
2.查询Qwen3模型的调用价格
3.把这两个价格都换算成人民币,并计算差价,保留两位小数。
4.最后,用一句话点评:到底买哪个更划算?
这直接省了小编再去特别去官网搜API报价了。(这个主要考察的是搜索、计算、分析等工具调用(大家懂得:不调用计算工具,数学题很容易做错))
先看Qwen3的回答:
图片
图片
不过,大家都知道Qwen3有很多系列,Qwen对话中引用的是Coder模型的价格,而ChatGPT则引用的是235B-Thinking的价格。
但不管怎样,两款模型都一致的认为:Qwen3的API价格明细更划算!
不过GPT-5当然不服气:
但如果你看重 GPT-5 在能力、生态、稳定性或多模态支持的综合价值,花更高的钱买 GPT-5 也可能更“值”。
Qwen3,对于这一点也是隐晦的表达了出来。
因此单从费用考虑,购买Qwen3的API更划算。不过,最终选择还需综合考虑模型性能、功能需求和具体应用场景。
四、API价格有点贵
阶梯计价,建议大家按需选择
OK,那么到底官网上这款新模型的API价格如何呢?小编为大家也扒下来了!
输入Token数 | 输入价格(每百万Token)
| 输出价格(每百万Token) |
0-32K | $1.2 | $3.441 |
32K-128K | $1.434 | $5.735 |
128K-252K | $2.151 | $8.602 |
在阿里百炼平台上,qwen3-max-preview 模型根据输入 Token数,采取阶梯计费的方式,
输入方面,如果是32k以内的token,每百万token只需要1.2美刀(不到9元人民币);越多越价格越贵。
输出方面,32k token以内,每百万token需要6美刀(43元人民币)。同样也是越多token,价格越贵。
小编看起来是真的有点贵。虽然贵有贵的道理,大家还是要按照需求场景慎重选择模型。
最后多说一嘴,小编在测试中发现了一个小秘密,纯当结尾的一个彩蛋吧:
Qwen3-Max-Preview 用于训练的数据应该是截止到去年的数据。
图片
图片
好了,小编测完后,隐隐感觉:阿里这款新模型很明显是奔着对标GPT5去的,包括价格方面也大有追赶之意。哈哈,但的确,质量和性能上的确没的说。
真的是太猛了!期待千问团队后续的迭代更新!
对了,差点忘了,大家免费体验地址:https://chat.qwen.ai/
