vLLM es un motor de servicio e inferencia de alto rendimiento y memoria eficiente para modelos lingüísticos grandes (LLM), que es particularmente eficiente gracias a su implementación de procesamiento por lotes continuos para solicitudes entrantes. Admite varias opciones de despliegue, incluyendo el despliegue de inferencia distribuida con tensores en paralelo usando Ray como servidor en tiempo de ejecución, despliegue en la nube con SkyPilot y despliegue con NVIDIA Triton, Docker y LangChain. Nuestros equipos han tenido una buena experiencia ejecutando servicios de trabajo de vLLM dockerizados en una máquina virtual on-prem, integrando un servidor API de OpenAI compatible, que a su vez se aprovecha de una variedad de aplicaciones, incluyendo complementos de IDE para asistencia en codificación y chatbots. Nuestros equipos utilizan vLLM para ejecutar modelos como CodeLlama 70B, CodeLlama 7B y Mixtral. Además es notable la capacidad de escalamiento del motor: solo son necesarios un par de cambios de configuración para pasar de ejecutar un modelo 7B a uno 70B. Si está buscando generar LLM, vale la pena explorar vLLM.