Anthropic近期将Claude Code提示缓存的TTL(存活时间)从一小时缩短至五分钟,尽管官方声称此举不会增加成本,但大量用户反映配额消耗明显加快。有用户指出,五分钟TTL对长会话、高上下文的使用场景极为不利。Anthropic员工回应称,该变更对单次调用场景实际更经济,但承认百万token上下文窗口导致缓存未命中时成本显著上升,目前正在研究将默认上下文窗口调整为40万token。
AMD发布新款旗舰桌面处理器Ryzen 9 9950X3D2双版本,配备16个核心和高达208MB的超大缓存池。该处理器是9950X3D的改进版,两个计算芯片组均配备64MB SRAM瓦片,将L3缓存从128MB提升至192MB。更大的缓存有利于游戏等数据密集型工作负载,预计在生产工作负载中性能提升5-13%。该处理器基础频率4.3GHz,最大加速频率5.6GHz,计划4月22日上市。
华为即将发布AI固态硬盘,配合统一缓存管理软件,将键值缓存数据从GPU高带宽内存中转移到SSD存储,避免重复计算以提升AI处理速度。该方案采用分层缓存架构,整合GPU内存、CPU内存和SSD存储。华为还将运用XtremeLink技术和SpeedFlex印刷电路板技术。此举旨在解决GPU服务器内存墙问题,帮助中国构建新的AI生态系统。
英伟达通过Dynamo引擎实现分层KV缓存,将大语言模型的键值对存储从GPU高带宽内存扩展至CPU内存、直连SSD和网络存储。该技术解决了GPU内存不足时向量数据被驱逐需重新计算的问题,通过多层存储架构提升推理效率。Dynamo支持vLLM等推理引擎,具备分离服务、智能路由等四大功能。目前已有Cloudian、DDN、戴尔、HPE、NetApp、Pure Storage等多家存储厂商宣布支持该技术。