Google TurboQuant: LLM 메모리 6배 감소
Google TurboQuant: KV 캐시 6배 압축, 8배 가속, 정확도 손실 거의 없음, 플러그앤플레이.
Google Research가 2026년 3월 TurboQuant를 발표했다. PolarQuant(직교 회전으로 극좌표 변환)와 QJL(1비트 잔차 편향 제거)의 2단계 압축으로 KV 캐시를 6배 이상 압축하고, H100 GPU에서 어텐션 계산을 8배 가속했다. 104K 토큰까지 100% 리콜을 유지하며, 데이터 불가지론적 플러그앤플레이로 모든 모델에 적용 가능하다.