Prefill vs Decode: LLM-Inferenzlatenz verstehen

Eine klare Erklärung der zwei unterschiedlichen Latenzphasen bei der LLM-Inferenz – Prefill und Decode – die Entwicklern hilft, KI-Antwortzeiten zu diagnostizieren und zu optimieren.

Wenn Benutzer sich über langsame KI-Antworten beschweren, erleben sie oft zwei verschiedene Arten von Verzögerungen: die anfängliche Wartezeit, bevor das Modell zu antworten beginnt, und die langsame Token-für-Token-Generierung, nachdem es begonnen hat. Diese entsprechen zwei unterschiedlichen Phasen der LLM-Inferenz: Prefill und Decode. Prefill verarbeitet die gesamte Eingabeaufforderung parallel und berechnet Key-Value-Caches für den Aufmerksamkeitsmechanismus. Decode generiert Ausgabetoken einzeln, wobei jeder Schritt einen vollständigen Vorwärtsdurchlauf erfordert. Das Verständnis dieser Unterscheidung ist entscheidend für die Optimierung von Inferenzpipelines. Techniken wie kontinuierliches Batching, spekulatives Decoding und KV-Cache-Management zielen unterschiedlich auf diese Phasen ab. Für Entwickler, die KI-Anwendungen erstellen, hilft das Wissen, ob die Latenz von Prefill oder Decode dominiert wird, bei der Auswahl der richtigen Optimierungsstrategien, wie z. B. Prompt-Kompression für Prefill-lastige Workloads oder Modellquantisierung für Decode-lastige Szenarien. Dieses grundlegende Wissen ist für jeden unerlässlich, der LLMs in der Produktion einsetzt.