FlashAttention expliqué : attention consciente des E/S pour des LLM efficaces

Cet article plonge en profondeur dans FlashAttention, un mécanisme d'attention exacte conscient des E/S qui réduit considérablement les coûts de mémoire et de calcul pour les longues séquences. Il explique le problème de complexité quadratique de l'attention standard et comment les techniques de tuilage et de fusion de noyaux de FlashAttention le surmontent.

FlashAttention représente une percée dans l'optimisation des mécanismes d'attention en étant conscient des E/S plutôt que seulement du calcul. L'auto-attention standard a une complexité temporelle et spatiale O(n²), ce qui la rend prohibitivement coûteuse pour les longues séquences. FlashAttention résout ce problème en tuilant le calcul d'attention et en fusionnant les noyaux pour minimiser les lectures/écritures mémoire entre la mémoire à haute bande passante (HBM) du GPU et la SRAM sur puce. Cette approche obtient des résultats d'attention exacts (non approximatifs) tout en utilisant significativement moins de mémoire et en étant plus rapide. Pour les développeurs travaillant sur de grands modèles de langage ou toute architecture basée sur les transformers, comprendre FlashAttention est crucial pour passer à l'échelle efficacement sur des contextes plus longs.