Prefill vs Decode : comprendre la latence d'inférence LLM

Une explication claire des deux phases de latence distinctes dans l'inférence LLM – Prefill et Decode – aidant les développeurs à diagnostiquer et optimiser les temps de réponse de l'IA.

Lorsque les utilisateurs se plaignent de la lenteur des réponses de l'IA, ils rencontrent souvent deux types de délais différents : l'attente initiale avant que le modèle ne commence à répondre, et la génération lente token par token après qu'il a commencé. Ceux-ci correspondent à deux phases distinctes de l'inférence LLM : Prefill et Decode. Prefill traite l'intégralité de l'invite d'entrée en parallèle, calculant les caches clé-valeur pour le mécanisme d'attention. Decode génère les tokens de sortie un par un, chaque étape nécessitant un passage avant complet. Comprendre cette distinction est crucial pour optimiser les pipelines d'inférence. Des techniques comme le batching continu, le décodage spéculatif et la gestion du cache KV ciblent ces phases différemment. Pour les développeurs créant des applications d'IA, savoir si la latence est dominée par Prefill ou Decode aide à choisir les bonnes stratégies d'optimisation, comme la compression d'invite pour les charges de travail lourdes en Prefill ou la quantification de modèle pour les scénarios lourds en Decode. Ces connaissances fondamentales sont essentielles pour quiconque déploie des LLM en production.