— AI DAILY

Google TurboQuant將KV快取壓縮6倍、推理加速8倍，幾乎零精度損失，完全數據無關即插即用。

Google Research發布TurboQuant量化框架：PolarQuant將向量轉換為極坐標分離幅度和方向，QJL消除殘差偏差維持注意力準確性。KV快取壓縮6倍至3-4位元素，H100 GPU加速8倍，104K Token大海撈針測試100%召回率。完全數據無關，即插即用適用任何模型。2026年LLM基礎設施最重大演算法突破。

Sources

COAIO
COAIO