Rotary Position Embedding (RoPE) ist zur De-facto-Standard-Positionskodierungsmethode in modernen großen Sprachmodellen geworden, darunter LLaMA, GPT-4 und viele andere. Dieser Artikel verfolgt die Entwicklung der relativen Positionskodierung (RPE) von Shaws additivem Ansatz über die Vier-Term-Reformulierung von Transformer-XL, die biasbasierte Methode von T5 und die 2D-Erweiterung von Swin Transformer bis hin zu RoPEs eleganter rotationsbasierter Lösung. RoPE kodiert Positionen durch Rotation von Query- und Key-Vektoren in der Attention und erfasst so natürlicherweise relative Positionen ohne zusätzliche Parameter. Zu den Hauptvorteilen gehören bessere Längengeneralisierung, Kompatibilität mit linearer Attention und nahtlose Integration in bestehende Architekturen. Das Verständnis dieser Entwicklung hilft Ingenieuren, fundierte Entscheidungen über Positionskodierung in neuen Modelldesigns zu treffen.
Ein technischer Deep-Dive in Rotary Position Embedding (RoPE) und seine Vorgänger, der erklärt, warum es zum Standard für LLMs wurde.