-
简介
- vLLM 是加州大学伯克利分校开发的开源大模型推理系统,专为高吞吐、低延迟的生产环境设计。它的核心理念是:让大模型服务更快、更省、更能扛并发。
-
核心技术
-
PagedAttention(分页注意力)
-
这是 vLLM 的标志性创新。传统框架为每个请求分配连续的显存空间来存储 KV Cache(注意力机制的键值缓存),会导致大量碎片和浪费。PagedAttention 受操作系统内存分页机制启发,将 KV Cache 分割成固定大小的“页”,实现非连续存储和动态调度。
-
结果:
- 显存利用率从约 60% 提升到 95% 以上
- 吞吐量可达传统方案的 24 倍
-
-
Continuous Batching(连续批处理)
- 传统批处理必须等当前批次所有请求完成才能处理新请求。vLLM 支持动态插入新请求,让 GPU 始终满负荷运转,显著降低首字延迟(TTFT)
-
-
主要特点
特点 说明 极高性能 PagedAttention + Continuous Batching,吞吐量业界领先 OpenAI 兼容 API 可直接替换 OpenAI API,无需改代码 多卡并行 支持张量并行、流水线并行、专家并行 量化支持 原生支持 GPTQ、AWQ、INT4、INT8、FP8 前缀缓存 相同前缀(如 system prompt)只计算一次,RAG 场景效果显著 投机解码 用小模型辅助加速生成,可提速 2-3 倍 多硬件支持 NVIDIA、AMD、Intel、华为昇腾等 -
vLLM与Ollama、Xinference对比。
对比维度 vLLM Ollama XInference 核心定位 高性能推理引擎 本地极简工具 企业分布式平台 目标用户 追求吞吐的生产环境 个人开发者/爱好者 企业级部署 技术核心 PagedAttention + Continuous Batching llama.cpp + GGUF 分离式部署 + 多后端 性能 ⭐⭐⭐⭐⭐ 最高 ⭐⭐ 一般 ⭐⭐⭐⭐ 较高(取决于后端) 易用性 ⭐⭐⭐ 需要一定配置 ⭐⭐⭐⭐⭐ 一条命令 ⭐⭐⭐⭐ Web UI 友好 模型格式 HF、AWQ、GPTQ、FP8 GGUF HF、GGUF(可切换后端) 模型类型 主要是 LLM 主要是 LLM LLM + Embedding + ReRank 并发能力 ⭐⭐⭐⭐⭐ 极高 ⭐⭐ 低 ⭐⭐⭐⭐ 高(分布式) GPU 利用率 ⭐⭐⭐⭐⭐ 95%+ ⭐⭐ 较低 ⭐⭐⭐⭐ 较高 生产特性 前缀缓存、投机解码、多卡并行 基本 分离式部署、K8s 集成 资源需求 GPU 必须(推荐 24GB+) CPU/GPU 均可 可 CPU/GPU 混用