Google TurboQuant算法:大模型内存占用降低6倍不牺牲质量

Google TurboQuant將KV快取壓縮6倍、推理加速8倍,幾乎零精度損失,完全數據無關即插即用。

Google Research發布TurboQuant量化框架:PolarQuant將向量轉換為極坐標分離幅度和方向,QJL消除殘差偏差維持注意力準確性。KV快取壓縮6倍至3-4位元素,H100 GPU加速8倍,104K Token大海撈針測試100%召回率。完全數據無關,即插即用適用任何模型。2026年LLM基礎設施最重大演算法突破。