Rotary Position Embedding (RoPE) se ha convertido en el método de codificación de posición de facto en los modelos de lenguaje grandes modernos, incluidos LLaMA, GPT-4 y muchos otros. Este artículo rastrea la evolución de la codificación de posición relativa (RPE) desde el enfoque aditivo de Shaw hasta la reformulación de cuatro términos de Transformer-XL, el método basado en sesgo de T5, la extensión 2D de Swin Transformer, culminando en la elegante solución basada en rotación de RoPE. RoPE codifica la posición rotando los vectores de consulta y clave en la atención, capturando naturalmente las posiciones relativas sin parámetros adicionales. Sus ventajas clave incluyen una mejor generalización de longitud, compatibilidad con atención lineal e integración perfecta con arquitecturas existentes. Comprender esta progresión ayuda a los ingenieros a tomar decisiones informadas sobre la codificación de posición en nuevos diseños de modelos.
Una inmersión técnica profunda en Rotary Position Embedding (RoPE) y sus predecesores, explicando por qué se convirtió en el estándar para los LLM.