针对当今科技领域发展的前沿指南
服务数字读者的出版物
业务主管的A-Z技术指南
聚焦技术引领的商业变革
助力商业的专业洞见
关于战略、人工智能, 工程、技术生涯等方面的专家建议
浏览更多我们的书籍
分析商业和技术最新趋势的精彩对话
探索最新科技热点,深度分析技术与商业
面试准备
了解作为一名Thoughtworker是怎样的体验
正确开启技术生涯
在您所在的区域寻找正在招聘的岗位
订阅我们的月度新闻简报
了解更多我们如何支持员工的职业发展
技术雷达
LMCache 是一个用于加速大语言模型(LLM)服务基础设施的键值对(KV)缓存解决方案。它作为跨 LLM 推理引擎池的专门缓存层,存储可能被多次处理的文本的预计算 KV 缓存条目,如聊天历史或文档集合。通过将这些值持久化到磁盘上,预填充计算可以从 GPU 卸载,减少首令牌时间(TTFT)并降低 RAG 管道、多轮聊天应用和智能体系统等高要求工作负载的推理成本。你可以将 LMCache 与主要推理服务器(如 vLLM 或 NVIDIA Dynamo 集成,并认为值得评估其对你的设置的影响。
English | Español | Português | 中文
Subscribe now