
MemOS:让大模型告别遗忘、拥有操作系统级记忆管理 原创 精华
论文提出了一个卓越的记忆框架——MemOS,它将记忆功能提升为系统级调用。大语言模型遗忘速度快,重新训练成本高昂。MemOS将记忆视为操作系统中的文件,让模型能够在运行时动态地写入、移动和淘汰知识,而不仅仅是在训练期间。它将每个事实或状态封装在一个记忆立方体(MemCube)中,标记创建者和时间戳,然后调度器根据使用情况将该立方体在纯文本、GPU缓存或微型权重补丁之间移动。在LOCOMO基准测试中,该系统达到73.31分的LLM-Judge平均分,比次佳记忆系统高出约9分,在复杂的多跳和时序问题上保持领先。即使处理约1500个记忆令牌,它也能匹配全上下文的准确性,同时保持与轻量级基线相当的延迟。将热点立方体切换到KV缓存可在Qwen2.5-72B测试中将首令牌等待时间减少91.4%,且不改变任何输出文本。总体而言,研究结果表明,将记忆作为操作系统的方法能够提升推理质量、降低延迟,并同时内置审计和版本控制功能。
图片
记忆系统的困境:大多数模型将所有信息压缩到数十亿个冻结权重中,因此更新哪怕一个事实都需要完整的微调。上下文窗口虽然能暂时帮助,但会在下一个提示后消失,而检索管道会添加额外文本却不跟踪版本或所有权。第2页的图1显示MemOS在单跳、多跳、开放域和时序问题上都优于旧有解决方案,这表明单纯的参数调整或普通的RAG永远不够。
图片
记忆立方体的内容:记忆立方体封装实际记忆加上元数据,如所有者、时间戳、优先级和访问规则。该封装适用于三种记忆形式:纯文本片段、位于KV缓存中的激活张量,以及低秩参数补丁。由于每个立方体都记录访问者和原因,调度器可以将热点立方体提升到GPU缓存或将冷门立方体存储到归档存储中,同时不丢失审计轨迹。
图片
三层架构的协同工作:接口层将用户对话转换为结构化的MemoryAPI调用,将"去年的检查"之类的问题转化为时间范围查询。操作层运行MemScheduler、MemOperator和MemLifecycle来选择立方体、融合重叠内容,并将这些立方体标记为激活、合并或归档状态。基础设施层通过MemGovernance保护立方体,通过MemLoader/MemDumper传输它们,并将它们存储在MemVault中,后者可以是向量存储、图数据库或对象存储桶。
图片
调度器保持记忆新鲜:MemScheduler决定哪个立方体放置在何处。高命中率的纯文本转换为激活张量以便即时重用,稳定的激活模式最终蒸馏为参数补丁以实现零提示开销。旧立方体则反向滑动,一旦停止获得命中,昂贵的权重就转换为便宜的文本。
图片
数据验证效果:在LOCOMO基准测试中,MemOS获得73.31分的LLM-Judge分数,比次佳系统高出约9分,同时保持相似的延迟预算。在多跳和时序推理方面差距尤其明显,这些领域在上下文缺失时容易崩溃。
图片
KV技巧缩短等待时间:MemScheduler将热门立方体预先烘焙为KV缓存条目,使模型跳过编码器工作。在Qwen2.5-72B测试中,首令牌延迟从1.79秒降至0.15秒,减少91%,输出文本保持逐字节相同。
论文标题:MemOS: A Memory OS for AI System
论文链接:https://arxiv.org/abs/2507.03724
本文转载自AI帝国,作者:无影寺
