美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!

发布于 2025-9-24 07:07
浏览
0收藏

昨天刷到美团龙猫又开源新模型了,LongCat-Flash-Thinking,这次是思考模型。

8月底,美团先开了LongCat模型,我也是第一时间评测了!

这次LongCat-Flash-Thinking的技术报告依旧干货满满,很多有意思的东西,就比如各领域数据分开进行RL,然后融合,我之前只看到在SFT上会这么做,没想到RL也行~

咱们依旧老规矩先看细节,再评测。

LongCat-Flash-Thinking,也是MoE模型,模型结构跟LongCat一样,依旧是零计算专家等等,相关介绍看我上一篇。

核心区别在于训练方式不同,训练涉及两个阶段,长CoT冷启动训练和强化学习,训练流程如下图所示:

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

先看冷启动部分,包括Mid-training和SFT,核心是高质量数据构建,Mid-training阶段(也可以叫做增量预训练)采用课程学习的思想,将通用数据加入 STEM (竞赛难度)和 Code (编程竞赛) 数据,在不削弱模型通用基础能力的前提下,建立较高地推理能力起点。

SFT阶段主要涉及三个部分数据,通用推理数据,包括STEM、Code、逻辑和问答,Prompt过滤,用LLM初筛过滤不完整、无法回答或质量过低的Query,而对于Code,需具备清晰描述、不少于5组单元测试、有可执行评测脚本;同时,按照题目通过率,丢弃太过简单地题目,按难度分布采用构建Prompt数据集。

回答构建,采用拒绝采样用LongCat-Chat为每题生成多个候选回答,结合规则与模型评判选出最高质量响应作为训练数据。

形式推理数据,(形式推理就是以机器可验证的格式进行推理,例如,Lean4形式语言,前段时间DeepSeek-Prover模型就是干这个的),利用8B模型将自然语言题目转换为Lean4形式,再用语法和语义进行双重过滤,证明过程合成时采用迭代合成,不断将验证成功的数据,添加到训练数据中,最后形成陈述-思考-证明数据集。

Agent推理数据,采用双路径评估选择需要使用工具的Query,然后在MCP工具服务器上对Query生成多个候选路径,利用多模型评估正确性、逻辑一致性、工具完整性,通过的数据保留。

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

整体SFT数据比例,STEM-35%,Code-20%,General QA-20%,Agent-14%,Proving-8%,Logic-3%。

RL部分真是做了好多工程上优化,再次感叹,美团在infra上的实力,我是真没想到~

为了提高RL的训练效率,美团提出了DORA(Dynamic ORchestration for Asynchronous rollout)异步弹性共卡系统系统,利用多个旧版本 Actor 模型进行流式 rollout,避免最长样本阻塞,可以采样一致性,支持中断样本 KV-cache 复用,同时通过弹性共卡调度(elastic colocation)并行化生成与训练,实现接近零气泡的设备利用率。

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

DORA 采用分离式架构,将加速器集群划分为两类:

  • 独立组:仅承担生成角色,为 Actor 模型的推理副本
  • 弹性组:可按需动态切换为Reference & Actor,Reward & Critic 等角色,实现资源弹性

RL的目标为GRPO,不过移除了 GRPO 中的 KL 惩罚项,避免 biased 梯度并允许大更新,同时采用 Token 级损失,缓解长样本偏差;还引入三重裁剪,防止稀疏 MoE 下重要性权重爆炸。

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

最有意思的就是在RL阶段,多领域并行训练,再融合的策略,不过我在SFT阶段用过,当时是做多领域训练,但RL也能用吗?

美团这波用了是有效果的,融合后的模型,相较于单一模型,在不同场景下均有提高,缓解了混合训练时,不同领域数据之间的干扰。

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

融合策略采用了Normalization、Dropout、Erase,感兴趣的同学自己去看吧,最好去看引用的原论文。

榜单效果如下,在coding、工具使用、形式化推理证明要更好一些!

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

报告里内容挺多的,加上上次LongCat的论文内容,infra真是拉满~

还有个有意思的点,就是LongCat的回答模板,跟其他的不太一样,多轮情况下,要记录轮数,不知道这点出于什么考虑!

SYSTEM:{system_prompt} [Round 0] USER:{query} /think_on ASSISTANT:{response}</longcat_s>... [Round N-1] USER:{query} /think_on ASSISTANT:{response}</longcat_s> [Round N] USER:{query} /think_on ASSISTANT:

下面开始实测,没有卡部署的同学,就官网体验就行,点“深度思考”就是think模型了,要不然就是chat模型。

​https://longcat.ai/​

懒人速度版:

  • 快,很快,超级快,你用了你就知道有多快,
  • 整体上相比于chat模型是有一定提高的,
  • 指令遵循效果不错,能理解隐含的意图信息,
  • 回答整体要比Chat短,这个是一个很有意思的现象,有时候即使加上think部分,长度也没chat时长,代码、数学除外
  • 跟榜单展示结果差不多,但是代码这里有时候代码在think里,回答结果就会省略部分内容,
  • agent我没真实场景测试,写了几个假的工具,理解的还不错,后面调一下api试试看
  • 模型内置code interpreter

常规测试

Promtp:将“I love LongCat”这句话的所有内容反过来写

结果:回答正确

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

知识理解

Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”

结果:回答正确,理解了但丁和丁真是两个人,之前Chat模型是不对的,通过回答看得出模型会判断调不调工具

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

角色扮演&创作

Prompt:用甄嬛体吐槽地铁早高峰

结果:味儿还行

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

Prompt:帮小学生写一篇“我最讨厌的动物”作文,不能是猫狗

结果:文笔很小学生,字数350字,相比于chat模型,理解了隐含意图~

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

弱智吧

Prompt:生蚝煮熟了叫什么?

结果:正确

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

Prompt:用水来兑水,得到的是浓水还是稀水

结果:正确。

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

依旧小红,依旧老鹰

Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

结果:回答正确

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

结果:回答错误,判断老鹰本来就会飞的模型很少~

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

数学

Prompt:一个长五点五米的竹竿,能否穿过一扇高四米,宽三米的门?请考虑立体几何

结果:回答正确

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

Prompt:大数计算,178939247893 * 299281748617等于多少?

结果:回答正确,我发现它内置了python工具,用代码执行,算是取巧了~

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

Prompt:2025年高考全国一卷数学试题

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

结果:前两问对了,最后一问错了

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

代码

Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现

结果:整体风格不错,但是人机还是有点呆~

美团龙猫再开源LongCat-Flash-Thinking模型,细节满满!-AI.x社区

最后想说,我真没想到,都2025年了,大模型赛道还能杀出个美团来,有点不鸣则已,一鸣惊人的感觉,期待LongCat持续更新,来点小尺寸模型是最好的,

虽然你很快,但是我真没有8张H100部署。

本文转载自​NLP工作站​,作者:NLP工作站

已于2025-9-24 10:26:40修改
收藏
回复
举报
回复
相关推荐