LMCache É uma solução de cache chave-valor (KV) que acelera a infraestrutura de serviço de LLMs. Ele atua como uma camada de cache especializada em um conjunto de motores de inferência de LLM, armazenando entradas de cache KV pré-computadas para textos que provavelmente serão processados várias vezes, como históricos de chat ou coleções de documentos. Ao persistir esses valores em disco, as computações de pré-preenchimento podem ser descarregadas da GPU, reduzindo o tempo para o primeiro token (TTFT) e cortando custos de inferência em workloads exigentes, como pipelines de RAG, aplicações de chat de múltiplos turnos e sistemas agênticos. Você pode integrar o LMCache com os principais servidores de inferência, como vLLM ou NVIDIA Dynamo, e achamos que vale a pena avaliar seu impacto na sua configuração.