Enable javascript in your browser for better experience. Need to know to enable it? Go here.
Publicado : Nov 05, 2025
NÃO ENTROU NA EDIÇÃO ATUAL
Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais
Nov 2025
Avalie ?

LMCache É uma solução de cache chave-valor (KV) que acelera a infraestrutura de serviço de LLMs. Ele atua como uma camada de cache especializada em um conjunto de motores de inferência de LLM, armazenando entradas de cache KV pré-computadas para textos que provavelmente serão processados várias vezes, como históricos de chat ou coleções de documentos. Ao persistir esses valores em disco, as computações de pré-preenchimento podem ser descarregadas da GPU, reduzindo o tempo para o primeiro token (TTFT) e cortando custos de inferência em workloads exigentes, como pipelines de RAG, aplicações de chat de múltiplos turnos e sistemas agênticos. Você pode integrar o LMCache com os principais servidores de inferência, como vLLM ou NVIDIA Dynamo, e achamos que vale a pena avaliar seu impacto na sua configuração.

Baixe o PDF

 

 

 

English | Português

Inscreva-se para receber a newsletter do Technology Radar

 

 

Seja assinante

 

 

Visite nosso arquivo para acessar os volumes anteriores