
微软发布了 Phi-4-mini-flash-reasoning 模型 原创
微软刚刚发布了 Phi-4-mini-flash-reasoning 模型:
•基于全新的混合架构构建
•吞吐量提升 10 倍,延迟降低 2-3 倍
•在不牺牲推理性能的前提下显著加速推理
微软将大部分繁重的计算工作转移到精简的 SambaY 架构上,配合小型门控模块,让同样的 38 亿参数模型思考更快、响应更迅速。
Phi-4-mini-flash-reasoning 保持了 38 亿参数的紧凑规模,但重新设计了信息流动方式。全新的解码器-混合-解码器架构 SambaY 让轻量级循环组件处理上下文,单个全注意力层负责全局连接,而小巧的门控记忆单元(GMU)将这些工作在整个架构中循环利用。
相比 Phi-4-mini-reasoning,该模型在长上下文生成和对延迟敏感的推理任务中表现出显著更低的延迟和更高的吞吐量。
Phi-4-mini-flash-reasoning 的核心是全新的解码器-混合-解码器架构 SambaY,其关键创新是门控记忆单元(GMU)——一种简单而有效的层间表示共享机制。SambaY 架构的主要优势包括:
•增强解码效率
•保持线性预填充时间复杂度
•提升可扩展性和长上下文性能
•吞吐量提升高达 10 倍
解码器前半部分运行 Mamba + 滑动窗口注意力,保持线性成本。一个全注意力层计算并存储键值,然后后半部分通过交叉注意力获取这些键值。每隔一个交叉注意力层被替换为 GMU,仅对早期的隐藏状态进行门控,从而消除了一半的查找操作。
图片
在单个 A100-80GB GPU 上,vLLM 测试显示:对于 2K 提示词加 32K 生成的场景,吞吐量比 Phi-4-mini-reasoning 提升高达 10 倍。各种提示词长度下的端到端延迟平均降低约 2-3 倍。
图片
即使使用 256 个 token 的小滑动窗口,SambaY 在 Phonebook 32K 和 RULER 等困难检索数据集上仍然超越了纯 Transformer 基线。门控记忆单元保持新鲜的局部信息,而单个全注意力层提供全局覆盖能力。
图片
边缘设备教学应用、离线数学助手,以及任何需要快速响应且在严格内存限制下运行的设备端智能体,现在都有了一个即插即用的模型,能够处理 64K token 和长链推理,无需服务器集群支持。
链接:https://huggingface.co/microsoft/Phi-4-mini-flash-reasoning
本文转载自AI帝国,作者:无影寺
