Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Last updated : Nov 05, 2025
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar. Understand more
Nov 2025
Adopt ?

vLLM 是一个高吞吐量、内存高效的 LLM 推理引擎,可在云端或本地运行。它支持多种 模型架构 和流行的开源模型。我们的团队在 GPU 平台(如 NVIDIA DGX 和 Intel HPC)上部署了容器化的 vLLM 工作节点,托管包括 Llama 3.1 (8B 和 70B)Mistral 7BLlama-SQL 等模型,用于开发者编码辅助、知识搜索和自然语言数据库交互。vLLM 与 OpenAI SDK 标准兼容,实现一致的模型服务。Azure 的 AI Model Catalog 使用基于 vLLM 的自定义推理容器以提升服务性能,并将 vLLM 作为默认推理引擎,因其高吞吐量和高效内存管理而被广泛采用。vLLM 框架已成为大规模模型部署的首选方案。

Oct 2024
Trial ?

vLLM 是一个高吞吐量、内存高效的 LLM 推理引擎,既可以在云环境中运行,也可以在本地部署。它无缝支持多种 模型架构 和流行的开源模型。我们的团队在 NVIDIA DGX 和 Intel HPC 等 GPU 平台上部署了容器化的 vLLM 工作节点,托管模型如 Llama 3.1(8B and 70B)Mistral 7BLlama-SQL ,用于开发者编码辅助、知识搜索和自然语言数据库交互。vLLM 兼容 OpenAI SDK 标准,促进了一致的模型服务。Azure 的 AI 模型目录 使用自定义推理容器来提升模型服务性能,vLLM 由于其高吞吐量和高效的内存管理,成为默认的推理引擎。vLLM 框架正在成为大规模模型部署的默认选择。

Apr 2024
Assess ?

vLLM 是一个具有高吞吐量和高效内存的大语言模型(LLM)推理和服务引擎,其特别有效的原因在于它可以对传入请求进行连续批处理。它支持几种部署选项,包括使用Ray运行时进行分布式张量并行推理和服务部署,在云中使用SkyPilot、NVIDIA Triton、DockerLangChain进行部署。我们团队的经验是在本地虚拟机中运行基于 docker 的 vLLM worker,集成了与 OpenAI 兼容的 API 服务器,并在此基础上被一系列应用所利用(包括用于编码辅助以及聊天机器人的 IDE 插件)。团队对此反馈良好。我们的团队利用 vLLM 运行诸如CodeLlama 70BCodeLlama 7BMixtral等模型。引擎的另一个显著特点是其可扩展能力:只需进行一些配置更改,就可以从运行 7B 模型转换为 70B 模型。如果您希望将 LLMs 投入生产,那么 vLLM 值得进一步探索。

Published : Apr 03, 2024

Download the PDF

 

 

 

English | Português 

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read previous volumes