鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

给大模型装上「记忆外挂」：LMCache让推理速度提升10倍！

发布于 2025-9-30 06:44

浏览

0收藏

在人工智能应用日益普及的今天，大型语言模型（LLM）推理正逐渐成为核心基础设施。无论是在代码智能助手、搜索引擎、文档理解工具还是企业级对话系统中，绝大多数现实世界的AI应用都需要依赖运行在GPU集群上的高吞吐量推理引擎来完成模型调用任务。

然而随着使用规模的持续扩大，尤其是在处理长上下文请求时，LLM推理面临两大核心性能瓶颈：成本激增和延迟指标难以达标。

单纯依赖扩展GPU数量已难以为继，迫切需要引入更加智能、高效的显存与缓存管理策略。

正是在这一背景下，LMCache应运而生。

github地址： https://github.com/LMCache/LMCache

一、LMCache是什么？

LMCache是一个为大型语言模型（LLM）设计的缓存服务引擎扩展，它的目的是减少服务响应时间（TTFT）并提高吞吐量，特别是在长上下文场景下。

LMCache 是一个 LLM 服务引擎扩展，用于减少 TTFT 并提高吞吐量，尤其是在长上下文场景下。通过将可重用文本的 KV 缓存存储在不同位置，包括（GPU、CPU DRAM、本地磁盘），LMCache 在任何服务引擎实例中重用任何重用文本（不一定是前缀）的 KV 缓存。因此，LMCache 节省了宝贵的 GPU 周期并减少了用户响应延迟。

通过将 LMCache 与 vLLM 相结合，开发人员在许多 LLM 用例（包括多轮 QA 和 RAG）中实现了 3-10 倍的延迟节省和 GPU 周期减少。

给大模型装上「记忆外挂」：LMCache让推理速度提升10倍！-AI.x社区

特点：

（1）可以缓存kv cache到（GPU、CPU DRAM、本地磁盘）上；

（2）LMCache 在任何服务引擎实例中重用任何重用文本（不一定是前缀）的 KV 缓存；

名词定义：

TTFT（Time To First Token）

定义：从请求发送到收到第一个输出 Token 的时间。核心影响因素：Prompt 预填充（Prefill）阶段的计算效率。

二、LMCache三大核心特性

1. 海量规模（Massive Scale）

LMCache支持存储远超GPU显存容量的大规模KV缓存数据，通过解耦“模型推理”与“上下文存储”的耦合瓶颈，使得大模型可以应对更长上下文、更多用户并发的挑战。

2. 极速加载（Blazing Speed）

LMCache采用基于CUDA加速算子与流水线数据传输机制的高效加载方式，可将命中的KV缓存以极低延迟迅速加载至GPU显存中。相比传统的内存拷贝与CPU-GPU数据通路，该方式在多轮对话、RAG等高频缓存场景中显著降低推理启动时延（TTFT）。

3. 插件式存储后端（Pluggable Storage）

LMCache提供灵活开放的存储接口，可无缝集成多种后端系统，包括MooncakeStore、Infinistore、Redis、分布式文件系统（DFS）等。这种插件式设计不仅增强了系统的可扩展性，也为企业部署提供更广泛的适配空间。

三、LMCache性能表现

在实际部署中，当LMCache与高性能推理引擎vLLM结合使用时，能够显著提升模型响应速度：“首个Token响应时间”（TTFT）可提升3-10倍，同时在多轮问答、RAG检索增强生成等典型大模型应用场景中，有效节省大量GPU计算资源，降低整体运行成本。

一些实际部署案例显示了令人印象深刻的结果：

资源消耗：70B模型推理GPU显存需求从140GB→85GB（节省38%）
响应速度：处理50K病历文本时，TTFT从12.4s→3.1s
吞吐量：单A100节点QPS从4.3→11.6

四、如何安装和使用LMCache

环境准备

LMCache需要Python 3.6或更高版本和Cuda 10.0或更高版本。

安装步骤

安装依赖：

pip install lmcache

与vLLM集成

作者已经复现，亲测可以用，详细示例参考vllm的文档： https://github.com/vllm-project/vllm/blob/main/examples/others/lmcache/cpu_offload_lmcache.py

五、LMCache的应用场景

LMCache在多个场景中都能发挥重要作用：

多轮对话系统：在多轮对话系统中，LMCache可以缓存对话历史，加速响应速度。
内容推荐系统：通过缓存用户的浏览和交互历史，LMCache可以提高内容推荐的速度和准确性。
医疗问答系统：实际部署案例显示，LMCache在处理长篇病历时能显著降低响应时间。
RAG检索增强生成：LMCache能够有效缓存检索到的文档片段，避免重复计算。

本文转载自AI小新，作者：AI小新

标签

已于2025-9-30 06:44:12修改

赞

收藏

回复

举报

回复

相关推荐

10倍编码速度逆天，全网最全实测来了

duhorse • 5290浏览 • 0回复
史上首个实时AI视频生成技术：DiT通用，速度提升10.6倍

轻薄滴假象 • 4303浏览 • 0回复
谷歌发布大模型数据筛选方法：效率提升13倍，算力降低10倍

Aceryt • 3553浏览 • 0回复
让Google大牛告诉你，他是如何使用LLM提升10倍效率的？

Syrupup • 3075浏览 • 0回复
谷歌提出视觉记忆方法，让大模型训练数据更灵活

Aceryt • 3067浏览 • 0回复
Meta AI发布全新量化版本Llama 3.2（1B & 3B）：推理速度提升2-4倍，模型大小减少56%

Halo咯咯 • 3739浏览 • 0回复
清华大学提出1-Bit FQT：将全量化训练极限推到极致,训练速度提升5倍！

AI论文解读 • 3798浏览 • 0回复
StaR ｜用少量推理数据让模型学会通用推理能力，显著提升模型复杂推理

arnoldzhw • 4685浏览 • 0回复
多模态大模型Reyes增加batch推理方式，提升推理速度

大模型自然语言处理 • 3139浏览 • 0回复
Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

鸿煊的学习笔记 • 4083浏览 • 0回复
使用Unsloth微调与运行Gemma 3，速度提升1.6倍，VRAM使用减少60%

sbf_2000 • 4893浏览 • 0回复
比DeepSeek快8倍！智谱AI开源6款模型，推理速度200 tokens/秒碾压竞品，价格仅1/30！

AI博物院 • 5936浏览 • 0回复
开源模型跑出3倍推理速度，OpenAI沉默

AI博物院 • 4963浏览 • 0回复
解放你的效率：Quick Prompt让AI对话效率提升10倍

云原生AI百宝箱 • 2341浏览 • 0回复
用 GRPO 给 Text-to-SQL 模型装上“推理引擎”，让语言模型不只是生成代码！

Halo咯咯 • 2782浏览 • 0回复
给大模型装上"认知工具"，数学推理能力直接起飞

sbf_2000 • 1243浏览 • 0回复
NVIDIA发布Nemotron Nano 2：6倍推理速度，128K上下文，不是最大，却是最懂企业的大模型

Halo咯咯 • 2714浏览 • 0回复
Anthropic内部泄露：让Claude性能提升10倍的Prompt工程实践

AI博物院 • 1142浏览 • 0回复
分钟级长视频生成迎来“记忆革命”，7倍成本降低，2.2倍端到端生成速度提升!｜斯坦福&字节

zhangyannni • 2609浏览 • 0回复
Memori：用 SQL 给 AI 加上记忆

Syrupup • 776浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

热门推荐

2025年五大本地大模型，程序员必看！ 0回复

NeurIPS'25 智能体最新技术即时洞察：6大方向、代表论文、发展趋势 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

智能体主流框架深度研究报告：功能特性、用户群体、技术架构与商业化路径分析 0回复

一文读懂 Go 语言 AI 智能体框架 Eino：灵活高效的大模型应用开发工具 0回复

上一篇： LMCache+VLLM实战指南，让大模型的推理速度显著提升！

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载