vLLM

Technology Radar

Atualizado em : Nov 05, 2025

Nov 2025

Adote

vLLM é um motor de inferência para LLMs de alta taxa de transferência (high-throughput) e eficiente em memória, que pode rodar na nuvem ou no local. Ele suporta múltiplas arquiteturas de modelo e modelos populares de código aberto. Nossos times implantam workers vLLM dockerizados em plataformas de GPU como NVIDIA DGX e Intel HPC, hospedando modelos que incluem Llama 3.1 (8B e 70B), Mistral 7B e Llama-SQL para assistência à programação para pessoas desenvolvedoras, busca de conhecimento e interações com bancos de dados em linguagem natural. O vLLM é compatível com o padrão do SDK da OpenAI, permitindo um model serving consistente. O AI Model Catalog do Azure usa um contêiner de inferência customizado construído sobre o vLLM para aumentar a performance de serviço, com o vLLM como o motor de inferência padrão devido à sua alta taxa de transferência e gerenciamento de memória eficiente. O framework vLLM tornou-se referência para implantações de modelos em grande escala.

Oct 2024

Experimente

vLLM é um motor de inferência de alto rendimento e eficiente em termos de memória para LLMs que pode rodar na nuvem ou localmente. Suporta perfeitamente múltiplas arquiteturas de modelos e modelos populares de código aberto. Nossos times implementam agentes vLLM em contêineres Docker em plataformas GPU como NVIDIA DGX e Intel HPC, hospedando modelos como Llama 3.1(8B e 70B), Mistral 7B e Llama-SQL para assistência de desenvolvimento de código, busca de conhecimento e interação com banco de dados de linguagem natural. O vLLM é compatível com o padrão SDK da OpenAI, facilitando uma consistente entrega de modelos. O catálogo de modelos de IA da Azure usa um contêiner de inferência personalizado para aprimorar a performance na entrega de modelos, com o vLLM como motor de inferência padrão devido a sua alta taxa de transferência e eficiente gerenciamento de memória. O framework vLLM está se consolidando como padrão para implantações de modelos em larga escala.

Apr 2024

Avalie

O vLLM é um motor de inferência e serviço de alta performance e eficiência de memória para modelos de linguagem de grande porte (LLMs). Sua eficiência se deve principalmente à implementação de continuous batching para requisições recebidas. Ele suporta diversas opções de implantação, incluindo inferência e serviço distribuído com paralelismo de tensores usando o runtime Ray, implantação em nuvem com SkyPilot e implantação com NVIDIA Triton, Docker e LangChain. Nossos times tiveram boas experiências executando workers vLLM dockerizados em máquinas virtuais on-prem, integrando com um servidor de API compatível com OpenAI - o qual, por sua vez, é utilizado por diversas aplicações, incluindo plugins de IDE para auxílio à codificação e chatbots. Nossas equipes utilizam o vLLM para rodar modelos como CodeLlama 70B, CodeLlama 7B e Mixtral. Outro destaque é a capacidade de escala do motor: bastam algumas alterações na configuração para rodar um modelo de 7B para 70B. Se você busca colocar LLMs em produção, o vLLM merece ser explorado.