Radar Tecnológico

vLLM

Última actualización : Nov 05, 2025

Nov 2025

Adoptar

vLLM es un motor de inferencia de alto rendimiento y de uso eficiente de memoria para LLMs, que puede ejecutarse tanto en la nube como en entornos locales. Es compatible con múltiples arquitecturas de modelos y con modelos de código abierto populares. Nuestros equipos implementan workers de vLLM en contenedores Docker sobre plataformas GPU como NVIDIA DGX e Intel HPC, alojando modelos como Llama 3.1 (8B y 70B), Mistral 7B y Llama-SQL para asistencia en codificación, búsqueda de conocimiento e interacciones con bases de datos en lenguaje natural. vLLM es compatible con el estándar del SDK de OpenAI, lo que permite una prestación de modelos coherente. El AI Model Catalog de Azure utiliza un contenedor de inferencia personalizado basado en vLLM para mejorar el rendimiento, siendo vLLM el motor de inferencia predeterminado debido a su alto rendimiento y gestión eficiente de memoria. El framework vLLM se ha convertido en la opción preferida para implementaciones de modelos a gran escala.

Oct 2024

Probar

vLLM es un motor de inferencia de alto rendimiento y gestión de memoria eficiente para LLM que puede ejecutarse en la nube o en servidores propios. Admite perfectamente múltiples modelos de arquitectura y modelos populares de código abierto. Nuestros equipos despliegan tareas vLLM en plataformas GPU como NVIDIA DGX e Intel HPC, alojando modelos como por ejemplo Llama 3.1(8B and 70B), Mistral 7B, y Llama-SQL para la asistencia en desarrollo de código, búsqueda de conocimiento e interacciones de bases de datos en lenguaje natural. vLLM es compatible con el estándar de OpenAI SDK, facilitando un servicio de modelo consistente. El catálogo de modelos de IA de Azure utiliza un contenedor de inferencia personalizado para mejorar el rendimiento del servicio de modelos, con vLLM como motor de inferencia predeterminado debido a su alto rendimiento y gestión eficiente de la memoria. El framework vLLM está emergiendo como el modelo predeterminado de despliegues a larga escala.

Apr 2024

Evaluar

vLLM es un motor de servicio e inferencia de alto rendimiento y memoria eficiente para modelos lingüísticos grandes (LLM), que es particularmente eficiente gracias a su implementación de procesamiento por lotes continuos para solicitudes entrantes. Admite varias opciones de despliegue, incluyendo el despliegue de inferencia distribuida con tensores en paralelo usando Ray como servidor en tiempo de ejecución, despliegue en la nube con SkyPilot y despliegue con NVIDIA Triton, Docker y LangChain. Nuestros equipos han tenido una buena experiencia ejecutando servicios de trabajo de vLLM dockerizados en una máquina virtual on-prem, integrando un servidor API de OpenAI compatible, que a su vez se aprovecha de una variedad de aplicaciones, incluyendo complementos de IDE para asistencia en codificación y chatbots. Nuestros equipos utilizan vLLM para ejecutar modelos como CodeLlama 70B, CodeLlama 7B y Mixtral. Además es notable la capacidad de escalamiento del motor: solo son necesarios un par de cambios de configuración para pasar de ejecutar un modelo 7B a uno 70B. Si está buscando generar LLM, vale la pena explorar vLLM.