Technology Radar
Published : Oct 23, 2024
NOT ON THE CURRENT EDITION
This blip is not on the current edition of the Radar. If it was on one of the last few editions, it is likely that it is still relevant. If the blip is older, it might no longer be relevant and our assessment might be different today. Unfortunately, we simply don't have the bandwidth to continuously review blips from previous editions of the Radar.
Understand more
Oct 2024
Trial
FastChat 是一个开放平台,用于训练、服务和评估大型语言模型。我们的团队利用其模型服务能力来托管多个模型 — Llama 3.1 (8B and 70B) 、Mistral 7B 和 Llama-SQL — 出于不同的目的,所有模型均以一致的 OpenAI API 格式运行。FastChat 采用控制器-工作者架构,允许多个工作者托管不同的模型。它支持不同类型的工作者,如 vLLM、LiteLLM 和 MLX。我们选择使用 vLLM 模型工作者,以利用其在高吞吐量的优势。根据使用案例的不同(比如延迟或吞吐量),可以创建和扩展不同类型的 FastChat 模型工作者。例如,用于开发者 IDE 中代码建议的模型需要低延迟,这就可以通过多个 FastChat 工作者进行扩展,以有效处理并发请求。相反,用于 Text-to-SQL 的模型由于需求较低或性能要求不同,则不需要多个工作者。我们的团队利用 FastChat 的扩展能力进行 A/B 测试。我们用相同的模型但不同的超参数(Hyperparameter)值配置 FastChat 工作者,并向每个工作者提出相同的问题,从而识别最佳的超参数(Hyperparameter)值。在在线服务中切换模型时,我们进行 A/B 测试以确保平滑迁移。 例如,我们最近将代码建议的模型从 CodeLlama 70B 迁移到 Llama 3.1 70B。通过同时运行这两个模型并比较输出,我们验证了新模型在性能上达到了或超过了之前的模型,同时没有打断开发者的使用体验。