缓存优化 关键字列表
英伟达用分层KV缓存和Dynamo引擎扩展大语言模型内存

英伟达用分层KV缓存和Dynamo引擎扩展大语言模型内存

英伟达通过Dynamo引擎实现分层KV缓存,将大语言模型的键值对存储从GPU高带宽内存扩展至CPU内存、直连SSD和网络存储。该技术解决了GPU内存不足时向量数据被驱逐需重新计算的问题,通过多层存储架构提升推理效率。Dynamo支持vLLM等推理引擎,具备分离服务、智能路由等四大功能。目前已有Cloudian、DDN、戴尔、HPE、NetApp、Pure Storage等多家存储厂商宣布支持该技术。