La complexité quadratique des mécanismes d'attention standard a longtemps été un goulot d'étranglement pour le passage à l'échelle des modèles de transformateurs sur de longues séquences. Cette enquête explore les innovations clés qui relèvent ce défi : les motifs d'attention sparse qui limitent le calcul aux jetons pertinents, l'attention linéaire qui approxime la matrice d'attention, les modèles d'espace d'état (SSM) qui offrent des alternatives récurrentes, et les architectures hybrides qui combinent ces approches. Chaque méthode offre des compromis distincts en termes de précision, de vitesse et d'utilisation de la mémoire. Par exemple, l'attention sparse excelle dans les tâches avec des dépendances locales, tandis que les SSM offrent de bonnes performances sur les séquences à longue portée. Comprendre ces architectures est essentiel pour les ingénieurs en IA qui optimisent les modèles pour la production, car elles permettent des fenêtres de contexte plus longues, une latence plus faible et des coûts matériels réduits. Cette analyse fournit une feuille de route pour sélectionner l'architecture appropriée en fonction des exigences de la tâche et des contraintes de calcul.
Une enquête sur les architectures d'attention qui surmontent la complexité O(L²), couvrant les méthodes sparse, linéaires, SSM et hybrides.