Die quadratische Komplexität standardmäßiger Aufmerksamkeitsmechanismen war lange ein Engpass für die Skalierung von Transformer-Modellen auf lange Sequenzen. Diese Übersicht untersucht die wichtigsten Innovationen zur Bewältigung dieser Herausforderung: sparse Aufmerksamkeitsmuster, die die Berechnung auf relevante Token beschränken, lineare Aufmerksamkeit, die die Aufmerksamkeitsmatrix approximiert, Zustandsraummodelle (SSMs), die rekurrente Alternativen bieten, und hybride Architekturen, die diese Ansätze kombinieren. Jede Methode bietet unterschiedliche Kompromisse in Bezug auf Genauigkeit, Geschwindigkeit und Speichernutzung. Zum Beispiel eignet sich sparse Aufmerksamkeit hervorragend für Aufgaben mit lokalen Abhängigkeiten, während SSMs bei langreichweitigen Sequenzen starke Leistungen erbringen. Das Verständnis dieser Architekturen ist für KI-Ingenieure, die Modelle für die Produktion optimieren, unerlässlich, da sie längere Kontextfenster, geringere Latenz und reduzierte Hardwarekosten ermöglichen. Diese Analyse bietet eine Roadmap für die Auswahl der richtigen Architektur basierend auf Aufgabenanforderungen und Rechenbeschränkungen.
Eine Übersicht über Aufmerksamkeitsarchitekturen, die die O(L²)-Komplexität überwinden, mit Fokus auf sparse, lineare, SSM- und hybride Methoden.