cheat-sheets/src/AI/Tools/vLLM.md at master · lcp0578/cheat-sheets

vLLM is a fast and easy-to-use library for LLM inference and serving

https://docs.vllm.ai/en/stable/
https://github.com/vllm-project/vllm
简介
- vLLM 是加州大学伯克利分校开发的开源大模型推理系统，专为高吞吐、低延迟的生产环境设计。它的核心理念是：让大模型服务更快、更省、更能扛并发。
核心技术
- PagedAttention（分页注意力）
  - 这是 vLLM 的标志性创新。传统框架为每个请求分配连续的显存空间来存储 KV Cache（注意力机制的键值缓存），会导致大量碎片和浪费。PagedAttention 受操作系统内存分页机制启发，将 KV Cache 分割成固定大小的“页”，实现非连续存储和动态调度。
  - 结果：
    - 显存利用率从约 60% 提升到 95% 以上
    - 吞吐量可达传统方案的 24 倍
- Continuous Batching（连续批处理）
  - 传统批处理必须等当前批次所有请求完成才能处理新请求。vLLM 支持动态插入新请求，让 GPU 始终满负荷运转，显著降低首字延迟（TTFT）

主要特点

特点	说明
极高性能	PagedAttention + Continuous Batching，吞吐量业界领先
OpenAI 兼容 API	可直接替换 OpenAI API，无需改代码
多卡并行	支持张量并行、流水线并行、专家并行
量化支持	原生支持 GPTQ、AWQ、INT4、INT8、FP8
前缀缓存	相同前缀（如 system prompt）只计算一次，RAG 场景效果显著
投机解码	用小模型辅助加速生成，可提速 2-3 倍
多硬件支持	NVIDIA、AMD、Intel、华为昇腾等

vLLM与Ollama、Xinference对比。

对比维度	vLLM	Ollama	XInference
核心定位	高性能推理引擎	本地极简工具	企业分布式平台
目标用户	追求吞吐的生产环境	个人开发者/爱好者	企业级部署
技术核心	PagedAttention + Continuous Batching	llama.cpp + GGUF	分离式部署 + 多后端
性能	⭐⭐⭐⭐⭐ 最高	⭐⭐ 一般	⭐⭐⭐⭐ 较高（取决于后端）
易用性	⭐⭐⭐ 需要一定配置	⭐⭐⭐⭐⭐ 一条命令	⭐⭐⭐⭐ Web UI 友好
模型格式	HF、AWQ、GPTQ、FP8	GGUF	HF、GGUF（可切换后端）
模型类型	主要是 LLM	主要是 LLM	LLM + Embedding + ReRank
并发能力	⭐⭐⭐⭐⭐ 极高	⭐⭐ 低	⭐⭐⭐⭐ 高（分布式）
GPU 利用率	⭐⭐⭐⭐⭐ 95%+	⭐⭐ 较低	⭐⭐⭐⭐ 较高
生产特性	前缀缓存、投机解码、多卡并行	基本	分离式部署、K8s 集成
资源需求	GPU 必须（推荐 24GB+）	CPU/GPU 均可	可 CPU/GPU 混用