Google TurboQuant:LLMメモリ使用量を6分の1に
Google ResearchがTurboQuantを発表。KVキャッシュを6倍以上圧縮し注意計算を8倍高速化、精度損失ほぼゼロ。データ不要のプラグアンドプレイで、LLMインフラへの最大級ブレークスルー。
GoogleのTurboQuantアルゴリズム:LLMメモリ6倍削減、推論8倍高速化
Google Researchが2026年3月にTurboQuantを発表。KVキャッシュ6倍以上圧縮、アテンション8倍高速化、精度損失ほぼゼロ。ICLR 2026とAISTATS 2026で発表予定。
二段階圧縮:PolarQuant(直交回転→極座標変換)とQJL(1-bit残差バイアス除去)。KVキャッシュを3-4ビット/要素に圧縮。H100 GPUで8倍速。104Kトークンまで100%リコール。データ不要のプラグアンドプレイ。
70Bモデル128Kコンテキスト:未圧縮KV30-50GB→TurboQuant後5-8GB。推論コスト削減、消費者GPUへのデプロイ拡大、ベクトルDB最適化。
2026年LLMインフラに最も影響を与える単一アルゴリズム突破の可能性。