KV Cache et Prompt Caching : comment réduire le temps et les coûts d’inférence des LLM

Cet article présente les principaux goulets d’étranglement de l’inférence des LLM, en expliquant comment les transformers génèrent et réutilisent le cache clé-valeur, ainsi que la manière dont le prompt caching réduit les calculs répétés sur des préfixes communs. Une introduction pratique pour les développeurs souhaitant améliorer la latence et réduire les coûts en production.