Codage de position RoPE expliqué : pourquoi il domine le NLP moderne

Une plongée technique approfondie dans le Rotary Position Embedding (RoPE) et ses prédécesseurs, expliquant pourquoi il est devenu la norme pour les LLM.

Le Rotary Position Embedding (RoPE) est devenu la méthode de codage de position de facto dans les grands modèles de langage modernes, y compris LLaMA, GPT-4 et bien d'autres. Cet article retrace l'évolution du codage de position relatif (RPE) de l'approche additive de Shaw à la reformulation à quatre termes de Transformer-XL, la méthode basée sur le biais de T5, l'extension 2D de Swin Transformer, culminant avec la solution élégante basée sur la rotation de RoPE. RoPE encode la position en faisant pivoter les vecteurs de requête et de clé dans l'attention, capturant naturellement les positions relatives sans paramètres supplémentaires. Ses principaux avantages incluent une meilleure généralisation de longueur, une compatibilité avec l'attention linéaire et une intégration transparente avec les architectures existantes. Comprendre cette progression aide les ingénieurs à prendre des décisions éclairées concernant le codage de position dans les nouvelles conceptions de modèles.