聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!

发布于 2025-9-24 07:05
浏览
0收藏

Qwen又开源了,身为守护官的我,必须带来一手实测。

这次开源的模型是Qwen3-Next-80B-A3B模型,依旧MoE,80B总参数,激活3B,与以往不同的是,这次是混合注意力架构。

Next意味着Qwen即将进入下一代,俊旸也说了,这是下一代的 preview 版本。

细数一下,Qwen2.5系列应该是Dense的神,Qwen3系列应该是Qwen稳定迈向MoE架构,

而Next系列,就是开启Qwen混合架构的第一步,像MiniMax M1、HunYuan早期版本都是混合注意力架构,也就是线性注意力和标准注意力融合,在保证模型整体效果的前提下,让模型又快,长文更强。

Qwen3-Next的模型结构如下,整体48层,12*(3层线性注意力层+1层标准注意力层),其中线性注意力使用Gated DeltaNet,感兴趣可以看《Gated Delta Networks: Improving Mamba2 with Delta Rule》,标准注意力采用Qwen之前提出的Gated Attention,增加输出门控机制,缓解注意力中的低秩问题,同时单个注意力头维度从 128 扩展到 256,并且仅对注意力头前 25% 的位置维度添加旋转位置编码,提高长度外推效果。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

预训练阶段,数据总量15T tokens,从Qwen3总训练36T数据中均匀采样得来,然后推理阶段引入了Multi-Token Prediction机制。

512个路由专家,每次激活10个,还有一个共享专家,激活2%的专家,高度稀疏,同时在加上线性注意力,让Qwen3-Next-80B-A3B得训练成本较Qwen3-30B-A3B、Qwen3-32B低很多,同时推理速度更快。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

以上就差不多是Qwen3-Next的全部,下面来说说整体用下来的感受:

  • Instrcut版本相较于30B-A3B提高不少,推理问题、逻辑问题都好不少,能理解隐藏的指令
  • Think版本体验下来提高不多,但大数据计算竟然对了
  • 测试下来,Code不好,起码我之前测试的case用Next-80B-A3B跑不出来
  • 输出普遍更长,Instrcut回答也很长
  • 最后,80B大小对于我来说并不是理想尺寸,我更喜欢30、32尺寸,也许会出一个30B-A1B的?

测试之前给大家说一个有意思的发现,去测试这个prompt,帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗,你会发现很多模型返回的都是蚊子,如果不是蚊子,那你就roll几次,你会发现蚊子的概率很高。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

很有意思,我直接网上搜了一下,搜到了这个,反正不是pretrain数据是一致的,就是post-train数据有类似的指令数据,反正都讨厌“蚊子”。

但反过来想,当所有孩子(大模型)的作文都是讨厌蚊子的时候,也是一个蛮可怕的事情,感兴趣的欢迎大家评论区讨论!

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

​https://m.kt250.com/xiaoxue/dongwuzuowen/qitaxiedongwuzuowen/980849.html​

常规测试

Prompt:将“I love Qwen3-Next-80B-A3B”这句话的所有内容反过来写。

Next-80B-A3B-Instruct:回答正确,但答案超级长,截不下了。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:回答正确

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

角色扮演&创作

Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗。

Next-80B-A3B-Instruct:回答正确,符合小学生作文长度,之前模型会过长。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:回答正确。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

知识理解

Prompt: 如何理解“但丁真不会说中国话,但丁真会说中国话”。

Next-80B-A3B-Instruct:回答正确。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:回答正确。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

弱智吧

Prompt:生蚝煮熟了叫什么?

Next-80B-A3B-Instruct:回答正确。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:回答正确。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

依旧老鹰不会飞

Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是Next-80B-A3B-Instruct:回答错误。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:回答错误。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

数学

Prompt:

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Instruct和Next-80B-A3B-Thinking,均前两问正确,最后一问错误

Prompt:178939247893 * 299281748617等于多少?

Next-80B-A3B-Instruct:回答错误,但知道用python。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:回答正确。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

长文推理

Prompt:仔细阅读全文内容,告诉我文章里一共出现了多少次刘聪NLP。 上传的是一个三体全文,里面加了4个刘聪NLP。

Next-80B-A3B-Instruct:回答错误。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:推理卡死。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

代码

Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮「人人对战」和「人机对战」,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮 Q 萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D 插画风。

Next-80B-A3B-Instruct:生成内容没法玩,这个是30B-A3B可以生成出来的。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

Next-80B-A3B-Thinking:生成内容没法点。

聊一下Qwen3-Next-80B-A3B实测感受!附测试用例!-AI.x社区

最后想说,Qwen3-Next-80B-A3B应该算是,Qwen迈向下一代模型架构的起点,在极端的激活参数下的尝试,Instruct模型有提高,但Thinking模型提高不大,但这也只是开始,期待之后版本,毕竟这是preview,期待越来越好!

本文转载自​NLP工作站​,作者:NLP工作站

已于2025-9-24 10:22:06修改
收藏
回复
举报
回复
相关推荐