Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Published : Oct 23, 2024
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar. Understand more
Oct 2024
Trial ?

FastChat es una plataforma abierta para entrenar, servir y evaluar grandes modelos de lenguaje. Nuestros equipos usan la funcionalidad de servir modelos para alojar distintos modelos — Llama 3.1 (8B y 70B), Mistral 7B y Llama-SQL — con distintos propósitos, todos en el formato consistente de OpenAI API. FastChat opera en una arquitectura ejecutor-controlador, permitiendo a múltiples ejecutores alojar modelos diferentes. Soporta tipos de ejecutores como vLLM, LiteLLM y MLX. Nosotros usamos los ejecutores del modelos vLLM por su alto rendimiento. Dependiendo del caso de uso — latencia o rendimiento — se pueden crear o escalar distintos tipos de ejecutores del modelo FastChat. Por ejemplo, el modelo usado para sugerencias de código en los entornos de desarrollo requiere una latencia baja y puede escalarse con múltiples ejecutores de FastChat para gestionar peticiones concurrentes eficientemente. Por el contrario, el modelo usado para Text-to-SQL no necesita muchos ejecutores por su baja demanda o requisitos de rendimiento distintos. Nuestros equipos se valen de la escalabilidad de FastChat para hacer pruebas A/B. Configuramos ejecutores FastChat con el mismo modelo pero con distintos valores para los hiper parámetros y planteamos las mismas preguntas a cada uno, identificando así hiper parámetros óptimos. Cuando migramos modelos de servicios en producción, llevamos a cabo pruebas A/B para asegurar que no haya interrupciones del servicio. Por ejemplo, migramos hace poco de CodeLlama 70B a Llama 3.1 70B para sugerencias de código. Ejecutando ambos modelos concurrentemente y comparando sus salidas, verificamos que el nuevo modelo cumplía o excedía el rendimiento del modelo anterior sin afectar la experiencia de desarrollo.

Download the PDF

 

 

 

English | Português

Sign up for the Technology Radar newsletter

 

 

Subscribe now

Visit our archive to read the previous volumes