Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Oct 23, 2024
NO EN LA EDICIÓN ACTUAL
Este blip no está en la edición actual del Radar. Si ha aparecido en una de las últimas ediciones, es probable que siga siendo relevante. Si es más antiguo, es posible que ya no sea relevante y que nuestra valoración sea diferente hoy en día. Desgraciadamente, no tenemos el ancho de banda necesario para revisar continuamente los anuncios de ediciones anteriores del Radar. Entender más
Oct 2024
Probar ?

FastChat es una plataforma abierta para entrenar, servir y evaluar grandes modelos de lenguaje. Nuestros equipos usan la funcionalidad de servir modelos para alojar distintos modelos — Llama 3.1 (8B y 70B), Mistral 7B y Llama-SQL — con distintos propósitos, todos en el formato consistente de OpenAI API. FastChat opera en una arquitectura ejecutor-controlador, permitiendo a múltiples ejecutores alojar modelos diferentes. Soporta tipos de ejecutores como vLLM, LiteLLM y MLX. Nosotros usamos los ejecutores del modelos vLLM por su alto rendimiento. Dependiendo del caso de uso — latencia o rendimiento — se pueden crear o escalar distintos tipos de ejecutores del modelo FastChat. Por ejemplo, el modelo usado para sugerencias de código en los entornos de desarrollo requiere una latencia baja y puede escalarse con múltiples ejecutores de FastChat para gestionar peticiones concurrentes eficientemente. Por el contrario, el modelo usado para Text-to-SQL no necesita muchos ejecutores por su baja demanda o requisitos de rendimiento distintos. Nuestros equipos se valen de la escalabilidad de FastChat para hacer pruebas A/B. Configuramos ejecutores FastChat con el mismo modelo pero con distintos valores para los hiper parámetros y planteamos las mismas preguntas a cada uno, identificando así hiper parámetros óptimos. Cuando migramos modelos de servicios en producción, llevamos a cabo pruebas A/B para asegurar que no haya interrupciones del servicio. Por ejemplo, migramos hace poco de CodeLlama 70B a Llama 3.1 70B para sugerencias de código. Ejecutando ambos modelos concurrentemente y comparando sus salidas, verificamos que el nuevo modelo cumplía o excedía el rendimiento del modelo anterior sin afectar la experiencia de desarrollo.

Descarga el PDF

 

 

 

English | Español | Português | 中文

Suscríbete al boletín informativo de Technology Radar

 

 

 

 

Suscríbete ahora

Visita nuestro archivo para leer los volúmenes anteriores