压缩算法 关键字列表
谷歌TurboQuant技术将AI内存需求降低6倍

谷歌TurboQuant技术将AI内存需求降低6倍

谷歌研究院发布TurboQuant压缩算法,可将AI模型内存使用量减少6倍,在相同GPU数量下提升8倍处理速度,且不损失准确性。该技术无需重新训练或微调,可直接集成到现有推理管道中。消息发布后内存芯片股价大跌,DDR5内存价格下降15%-30%。不过分析师提醒,这仍是研究突破而非成熟产品,实际应用效果有待验证。

谷歌TurboQuant算法将大语言模型内存使用量减少6倍

谷歌TurboQuant算法将大语言模型内存使用量减少6倍

谷歌研究团队最新发布的TurboQuant压缩算法,能够在保持准确性的同时大幅减少大语言模型的内存占用并提升运行速度。该算法通过PolarQuant技术将向量坐标从标准XYZ坐标转换为极坐标系统,并结合量化约翰逊-林登施特劳斯技术进行误差修正。测试结果显示,该算法可将键值缓存的内存使用量减少6倍,性能提升8倍,且无需额外训练即可应用于现有模型。