LMCache es una solución de caché de tipo clave-valor (KV) que acelera la infraestructura de despliegue e inferencia de LLMs. Actúa como una capa de almacenamiento en caché especializada sobre un conjunto de motores de inferencia con LLMs, almacenando entradas precomputadas para textos que probablemente se procesan varias veces, como historiales de chat o colecciones de documentos. Al persistir estos valores en disco, las operaciones de prefill pueden descargarse de la GPU, reduciendo el time-to-first-token (TTFT) y disminuyendo los costos de inferencia en cargas de trabajo exigentes como pipelines RAG, aplicaciones de chat de múltiples turnos y sistemas basados en agentes. Puedes integrar LMCache con servidores de inferencia principales como vLLM o NVIDIA Dynamo, y creemos que vale la pena evaluar su impacto en tu configuración.