KV 캐시와 프롬프트 캐싱으로 LLM 추론 시간과 비용을 줄이는 방법

이 글은 대규모 언어 모델 추론의 주요 성능 병목을 설명하며, 트랜스포머가 Key/Value 캐시를 생성하고 재사용하는 방식과 공통 프롬프트 앞부분에서 프롬프트 캐싱이 중복 연산을 줄여 응답 속도와 비용을 개선하는 방법을 다룬다. 운영 환경의 LLM 효율을 높이려는 개발자에게 유용한 실용 가이드다.