Skip to content

Latest commit

 

History

History
48 lines (37 loc) · 3.61 KB

File metadata and controls

48 lines (37 loc) · 3.61 KB

vLLM is a fast and easy-to-use library for LLM inference and serving

  • https://docs.vllm.ai/en/stable/

  • https://github.com/vllm-project/vllm

  • 简介

    • vLLM 是加州大学伯克利分校开发的开源大模型推理系统,专为高吞吐、低延迟的生产环境设计。它的核心理念是:让大模型服务更快、更省、更能扛并发
  • 核心技术

    • PagedAttention(分页注意力)

      • 这是 vLLM 的标志性创新。传统框架为每个请求分配连续的显存空间来存储 KV Cache(注意力机制的键值缓存),会导致大量碎片和浪费。PagedAttention 受操作系统内存分页机制启发,将 KV Cache 分割成固定大小的“页”,实现非连续存储和动态调度。

      • 结果:

        • 显存利用率从约 60% 提升到 95% 以上
        • 吞吐量可达传统方案的 24 倍
    • Continuous Batching(连续批处理)

      • 传统批处理必须等当前批次所有请求完成才能处理新请求。vLLM 支持动态插入新请求,让 GPU 始终满负荷运转,显著降低首字延迟(TTFT)
  • 主要特点

    特点 说明
    极高性能 PagedAttention + Continuous Batching,吞吐量业界领先
    OpenAI 兼容 API 可直接替换 OpenAI API,无需改代码
    多卡并行 支持张量并行、流水线并行、专家并行
    量化支持 原生支持 GPTQ、AWQ、INT4、INT8、FP8
    前缀缓存 相同前缀(如 system prompt)只计算一次,RAG 场景效果显著
    投机解码 用小模型辅助加速生成,可提速 2-3 倍
    多硬件支持 NVIDIA、AMD、Intel、华为昇腾等
  • vLLM与Ollama、Xinference对比。

    对比维度 vLLM Ollama XInference
    核心定位 高性能推理引擎 本地极简工具 企业分布式平台
    目标用户 追求吞吐的生产环境 个人开发者/爱好者 企业级部署
    技术核心 PagedAttention + Continuous Batching llama.cpp + GGUF 分离式部署 + 多后端
    性能 ⭐⭐⭐⭐⭐ 最高 ⭐⭐ 一般 ⭐⭐⭐⭐ 较高(取决于后端)
    易用性 ⭐⭐⭐ 需要一定配置 ⭐⭐⭐⭐⭐ 一条命令 ⭐⭐⭐⭐ Web UI 友好
    模型格式 HF、AWQ、GPTQ、FP8 GGUF HF、GGUF(可切换后端)
    模型类型 主要是 LLM 主要是 LLM LLM + Embedding + ReRank
    并发能力 ⭐⭐⭐⭐⭐ 极高 ⭐⭐ 低 ⭐⭐⭐⭐ 高(分布式)
    GPU 利用率 ⭐⭐⭐⭐⭐ 95%+ ⭐⭐ 较低 ⭐⭐⭐⭐ 较高
    生产特性 前缀缓存、投机解码、多卡并行 基本 分离式部署、K8s 集成
    资源需求 GPU 必须(推荐 24GB+) CPU/GPU 均可 可 CPU/GPU 混用