LMCache：最快的开源 LLM 推理服务引擎

PyTorch研习社

发布于 2025-10-13 07:09

浏览

0收藏

如果你用过大型语言模型（LLMs）干点正经事，你肯定知道那种等待的煎熬。

你输入一个问题，按下回车，然后……啥也没有。

就一个转圈的光标在那晃，直到第一个词终于蹦出来。

这种延迟叫“首次令牌时间”（time-to-first-token，TTFT），真是让人抓狂。

现在，有个叫LMCache的项目。它是开源的，简单说就是给LLMs提速的神器。

LMCache是干啥的？

LLMs老干重复的活儿。

每次你给它一段文本，它都会构建一个叫KV cache（键值缓存）的东西。

你可以把它想象成模型在读文本时做的笔记。

问题在于，它不会重复用这些笔记。所以如果你又给了同样的文本，它得从头再建一遍。

LMCache就解决了这个问题。

它会把KV cache存下来，不光存在GPU显存里，还能存到CPU内存甚至磁盘上。当模型再次看到一模一样的文本（不只是前缀，是任何重复的文本），它直接从缓存里取出来。不浪费GPU的计算周期，也不让你多等。

结果呢？用vLLM的话，很多标准场景下，比如多轮对话或检索增强生成（retrieval-augmented generation），响应速度能快3到10倍。

看看这个：

# 老办法：慢得像爬
defget_answer(prompt):
    memory = build_memory_from_zero(prompt)  # GPU哭了
    return model.answer(memory)

# 用LMCache：快如闪电，聪明得很
import lmcache
defget_answer(prompt):
    if lmcache.knows_this(prompt):  # 以前见过？
        memory = lmcache.grab_memory(prompt)  # 直接拿来用
    else:
        memory = build_memory_from_zero(prompt)
        lmcache.save_memory(prompt, memory)  # 存起来下次用
    return model.answer(memory)

LMCache：最快的开源 LLM 推理服务引擎-AI.x社区图片

为啥LMCache这么牛

我见过不少AI工具，但LMCache有些特别酷的功能：

快得飞起：内存获取速度最快能提升7倍，处理量也更大。文本在哪它都不在乎，照样能复用。
存哪儿都行：内存块可以放CPU、磁盘，甚至是NIXL这种高级玩意儿。GPU可以偷个懒。
超爱vLLM：跟vLLM（版本1）配合得特别好，能跨设备共享工作，或者在系统间传递内存。
适合大活儿：专为真实应用设计，支持llm-d和KServe这些工具，不只是实验室里的小打小闹。如果你在做聊天机器人或者搜大堆数据的应用，LMCache能保持速度，还不用非得配个超级电脑。

怎么安装

开始之前，LMCache在Linux上跑得最顺。Windows用户得用WSL或者社区补丁。另外，你需要：

Python 3.9或更高版本
NVIDIA GPU（比如V100或H100）
CUDA 12.8或更高
没Wi-Fi？没问题，装好后离线也能跑。

简单方法：从PyPI装

想直接用？跑这个：

pip install lmcache

这会带上最新的Torch。如果碰到怪错，试试从源码装。

想玩点刺激的？试试TestPyPI

想要最新版？装预发布版：

pip install --index-url https://pypi.org/simple --extra-index-url https://test.pypi.org/simple lmcache==0.3.4.dev61

检查版本对不对：

import lmcache
from importlib.metadata import version
print(version("lmcache"))  # 应该是0.3.4.dev61或更高

版本号跟LMCache的GitHub上最新的对齐。

自己动手建

爱折腾？克隆代码然后搞：

git clone https://github.com/LMCache/LMCache.git
cd LMCache
pip install -r requirements/build.txt
# 选一个：
# A: 选你的Torch
pip install torch==2.7.1  # 适合vLLM 0.10.0
# B: 装带Torch的vLLM
pip install vllm==0.10.0
pip install -e . --no-build-isolation

确认没问题：

python3 -c "import lmcache.c_ops"

没崩？那就成了。

用uv快速搞定

喜欢快工具？试试uv：

git clone https://github.com/LMCache/LMCache.git
cd LMCache
uv venv --python 3.12
source .venv/bin/activate
uv pip install -r requirements/build.txt
# 一样的Torch/vLLM选择
uv pip install -e . --no-build-isolation

Docker

想省事？用Docker：

# 稳定版
docker pull lmcache/vllm-openai
# 夜间版
docker pull lmcache/vllm-openai:latest-nightly

对AMD GPU（比如MI300X），从vLLM镜像开始，加这些：

PYTORCH_ROCM_ARCH="gfx942" \
TORCH_DONT_CHECK_COMPILER_ABI=1 \
CXX=hipcc \
BUILD_WITH_HIP=1 \
python3 -m pip install --no-build-isolation -e .

跟vLLM无缝对接

LMCache跟vLLM就像烧烤派对上的好哥们。对vLLM v1：

pip install vllm

测试一下：

python3 -c "import vllm.distributed.kv_transfer.kv_connector.v1.lmcache_connector"

用vLLM v0？去他们repo里看示例脚本。

本文转载自PyTorch研习社，作者：AI研究生

标签

LMCache

LLM

LLMs

已于2025-10-13 07:09:02修改

相关推荐

加速扩散模型，最快1步生成SOTA级图片，字节Hyper-SD开源了

轻薄滴假象 • 3668浏览 • 0回复
腾讯PCG自研高性能大语言模型推理引擎「一念LLM」正式开源

轻薄滴假象 • 4986浏览 • 0回复
ACL 2024 | 让纯LLM实现类人的符号逻辑推理能力，开源框架SymbCoT来了

轻薄滴假象 • 4873浏览 • 0回复
MLC-LLM: 具有ML编译的通用LLM部署引擎

AIGC最前线 • 6855浏览 • 0回复
大语言模型llama-2-7b推理服务实战

zhcs333 • 7226浏览 • 1回复
如何采用最少的代码启动LLM API服务器

51CTO内容精选 • 5009浏览 • 0回复
ChatGPT等模型疯狂训练，最快2026年消耗尽公开文本数据

Aceryt • 5584浏览 • 0回复
微软 RetrievalAttention: LLM+ANN, LLM 推理速度与精度的平衡

amei2000go • 4005浏览 • 0回复
智能对话新纪元：大模型推理服务

AI论文解读 • 2991浏览 • 0回复
最新综述带你解锁AI的个性化服务 | 综述！扩散模型：AI艺术创作背后的"魔法引擎"

arnoldzhw • 5528浏览 • 0回复
使用MCTS显著提升LLM在复杂任务的推理能力

arnoldzhw • 9030浏览 • 0回复
如何进行高效的LLM分布式推理

zhcs333 • 3968浏览 • 0回复
美团 Flash Communication：LLM 推理的 AllReduce 通信优化

amei2000go • 7187浏览 • 0回复
美团 Flash Communication：LLM 推理的 AllReduce 通信优化

amei2000go • 4354浏览 • 0回复
MHA -> GQA：提升 LLM 推理效率

amei2000go • 4011浏览 • 0回复
NVIDIA、CMU 和华盛顿大学发布了“FlashInfer”：一个为 LLM 推理和服务提供最先进内核实现的内核库

Halo咯咯 • 7949浏览 • 0回复
五个开源 MCP 服务器，让你的AI代理势如破竹

51CTO技术栈 • 4735浏览 • 0回复
给大模型装上「记忆外挂」：LMCache让推理速度提升10倍！

AI小新 • 1400浏览 • 0回复
LMCache+VLLM实战指南，让大模型的推理速度显著提升！

AI小新 • 1560浏览 • 0回复