
Mistral 发布 Magistral,他们首款推理模型专为领域特定、透明和多语言推理而设计的
Mistra发布 Magistral —— Mistral AI 首款推理模型 —— 在领域特定、透明和多语言推理方面表现卓越。
最优秀的人类思维并非线性 —— 它在逻辑、洞察、不确定性和发现之间穿梭。推理语言模型使我们能够增强并委托复杂思考和深度理解给AI,提升我们处理需要精确、逐步深思和分析问题的能力。
但这个领域仍处于起步阶段。缺乏处理领域特定问题所需的专业深度、透明度有限,以及在所需语言中推理不一致 —— 这些只是早期思维模型的一些已知局限性。
Magistral —— Mistral的首款推理模型。同时发布开源(https://huggingface.co/mistralai/Magistral-Small-2506)和企业版本,Magistral 旨在以我们熟悉的方式深入思考 —— 同时在专业领域带来专业知识、可跟踪和验证的透明推理,以及深度的多语言灵活性。
1、特色
Magistral 是一个专注于现实世界推理和反馈驱动改进的双重发布模型。
•发布两个版本:Magistral Small —— 24B参数开源版本,以及 Magistral Medium —— 更强大的企业版本。
•Magistral Medium 在 AIME2024 上得分 73.6%,在 64 次多数投票中达到 90%。Magistral Small 分别得分 70.7% 和 83.3%。
•原生推理 —— Magistral 的思维链在全球语言和字母系统中都能正常工作。
•适用于广泛的企业用例 —— 从结构化计算和编程逻辑到决策树和基于规则的系统。
•通过 Le Chat 中的新思考模式和闪速回答,您可以获得比大多数竞争对手快 10 倍的响应速度。
•此次发布由论文(https://mistral.ai/static/research/magistral.pdf)支持,涵盖了 Magistral 的综合评估、训练基础设施、强化学习算法,以及训练推理模型的新颖观察。
(1)专为透明推理而打造
Magistral 针对多步骤逻辑进行微调,提高可解释性,并以用户的语言提供可追踪的思维过程,不同于通用模型。
目标是从此次发布开始快速迭代模型。预期模型将持续改进。
(2)多语言灵活性
该模型在众多语言中保持高保真推理方面表现卓越。Magistral 特别适合用英语、法语、西班牙语、德语、意大利语、阿拉伯语、俄语和简体中文等语言进行推理。
(3)Le Chat 实现 10 倍更快的推理
通过 Le Chat 中的闪速回答,Magistral Medium 实现了比大多数竞争对手快达 10 倍的token吞吐量。这使得大规模的实时推理和用户反馈成为可能。
(4)应用的多样性
Magistral 适用于需要比非推理大语言模型更长思考处理和更高准确性的通用用途。从法律研究和财务预测到软件开发和创意写作 —— 这个模型解决了透明度和精确性至关重要的多步骤挑战。
2、Magistral 模型的训练方法
包括对 GRPO 算法的优化以提高训练稳定性,以及训练奖励机制,用于提升数学和编程能力,同时确保模型遵循正确的格式、长度和语言使用规范。
(1) GRPO 算法的优化
论文引入了几项修改:
- 消除KL散度:论文完全移除了KL惩罚;
- 损失标准化:通过首先对所有token和所有生成添加逐token损失,然后除以组中生成的总长度来标准化损失。
- 优势标准化
- 放宽信任区域的上界:允许模型探索罕见但可能具有洞察力的推理步骤,防止确定性策略。
- 消除非多样化组。所有生成都完全正确或错误的组具有零优势,因此对批次损失没有贡献。这导致梯度更小,噪声敏感性增加。为了解决这个问题,论文在形成训练批次时过滤掉所有零优势的组。
包含所有修改(用红色突出显示)的最终GRPO损失为:
图片
(2)训练奖励机制
选择合适的奖励对于强化学习算法的有效运行至关重要。在训练过程中,模型生成的内容从四个维度进行评估:格式、正确性、长度和语言一致性,我们在下文中进行描述。
格式化
对于数学和代码问题,我们指示模型遵循特定格式,这有助于提取模型的答案:
1)标签要求:(i) 模型响应必须以 <thinking>标签开始,并且必须包含相应的 </thinking> 标签。(ii) 响应中应该恰好存在一组这样的标签。
2)数学响应:对于数学输出,响应必须在 </thinking>标签后的答案部分包含用 \boxed{} 包围的最终答案。
3)代码响应:对于代码输出,响应必须在答案部分包含至少一个 markdown 代码块,用三个反引号格式化,后跟编程语言规范。
未能满足任何这些条件将导致奖励为 0,响应将不会进行进一步评分。否则,响应获得 0.1 的奖励并继续评分。
正确性
如果生成的答案遵循所需的格式,论文提取模型解决方案并使用验证器评估其正确性。
数学正确性:最终答案从解决方案中最后一个 \boxed{} 内提取,并使用基于规则的验证器与参考答案进行比较。它将真实答案和生成的答案都进行标准化,以正确奖励语义相同但语法不同的响应。我们利用不同解析器和 SymPy² 的组合来评估输出并将其与原始真实答案进行比较。如果答案正确,将给予额外的 0.9 奖励,使总奖励达到 1.0。
代码正确性:代码从答案部分的第一个 markdown 代码块中提取。如果代码是用 C++ 编写的,则使用 C++20 标准编译,超时时间为 10 秒。我们预编译 bits/stdc++.h 标准库头文件,这在竞技编程中常用,以加速编译过程。我们从可用测试用例中随机选择 20 个测试,确保在给定响应组内使用相同的测试。然后针对这些测试执行代码,每个测试的超时时间为 4 秒,内存限制为 300 MB。如果代码成功通过所有测试,将给予额外的 0.9 奖励。
长度惩罚
使用软长度惩罚来向模型发出信号,表明最大完成长度的硬截止临近。我们固定两个长度 lmax 和 lcache 并计算长度惩罚为
图片
图片
图片
本文转载自AI帝国,作者:无影寺
