Atención de consultas agrupadas (GQA) explicada: optimización de inferencia LLM

La atención de consultas agrupadas (GQA) reduce la memoria de caché KV en los LLM, permitiendo una inferencia más rápida y escalable.

La atención de consultas agrupadas (GQA) es una innovación fundamental en la arquitectura de los modelos de lenguaje grandes (LLM) modernos, que aborda el cuello de botella de memoria de los cachés KV durante la inferencia autorregresiva. La atención de múltiples cabezas (MHA) tradicional almacena pares clave-valor separados para cada cabeza de atención, lo que lleva a un crecimiento lineal de la memoria con la longitud de la secuencia y el tamaño del modelo. GQA reduce esto agrupando las cabezas de consulta y compartiendo una sola cabeza clave-valor por grupo, reduciendo drásticamente el uso de memoria mientras se preserva la calidad del modelo. Este artículo explica la motivación detrás de GQA, su relación con la atención de múltiples consultas (MQA) y su impacto práctico en la velocidad de inferencia y la escalabilidad. Para los ingenieros que trabajan en la implementación u optimización de LLM, comprender GQA es esencial para construir sistemas eficientes.