Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Apr 03, 2024
Apr 2024
Assess ? Vale la pena explorarlo con el objetivo de entender cómo afectará a tu empresa.

vLLM es un motor de servicio e inferencia de alto rendimiento y memoria eficiente para modelos lingüísticos grandes (LLM), que es particularmente eficiente gracias a su implementación de procesamiento por lotes continuos para solicitudes entrantes. Admite varias opciones de despliegue, incluyendo el despliegue de inferencia distribuida con tensores en paralelo usando Ray como servidor en tiempo de ejecución, despliegue en la nube con SkyPilot y despliegue con NVIDIA Triton, Docker y LangChain. Nuestros equipos han tenido una buena experiencia ejecutando servicios de trabajo de vLLM dockerizados en una máquina virtual on-prem, integrando un servidor API de OpenAI compatible, que a su vez se aprovecha de una variedad de aplicaciones, incluyendo complementos de IDE para asistencia en codificación y chatbots. Nuestros equipos utilizan vLLM para ejecutar modelos como CodeLlama 70B, CodeLlama 7B y Mixtral. Además es notable la capacidad de escalamiento del motor: solo son necesarios un par de cambios de configuración para pasar de ejecutar un modelo 7B a uno 70B. Si está buscando generar LLM, vale la pena explorar vLLM.

Descarga el PDF

 

 

 

English | Español | Português | 中文

Suscríbete al boletín informativo de Technology Radar

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores