L'attention par requêtes groupées (GQA) est une innovation cruciale dans l'architecture des grands modèles de langage (LLM) modernes, répondant au goulot d'étranglement mémoire des caches KV lors de l'inférence autorégressive. L'attention multi-têtes (MHA) traditionnelle stocke des paires clé-valeur distinctes pour chaque tête d'attention, entraînant une croissance linéaire de la mémoire avec la longueur de séquence et la taille du modèle. GQA réduit cela en regroupant les têtes de requête et en partageant une seule tête clé-valeur par groupe, réduisant considérablement l'utilisation de la mémoire tout en préservant la qualité du modèle. Cet article explique la motivation derrière GQA, sa relation avec l'attention multi-requêtes (MQA) et son impact pratique sur la vitesse d'inférence et l'évolutivité. Pour les ingénieurs travaillant sur le déploiement ou l'optimisation des LLM, comprendre GQA est essentiel pour construire des systèmes efficaces.
L'attention par requêtes groupées (GQA) réduit la mémoire du cache KV dans les LLM, permettant une inférence plus rapide et plus évolutive.