Das TRINITY-Router-Experiment evaluierte systematisch 8 große Sprachmodelle über 316 verschiedene Aufgaben, um gängige Routing-Hypothesen zu testen. Die Ergebnisse zeigen, dass viele weit verbreitete Annahmen über Modellspezialisierung – wie die, dass bestimmte Modelle universell besser für Codierung oder Reasoning geeignet sind – unter strengen Tests nicht Bestand haben. Stattdessen deuten die Daten darauf hin, dass optimales Routing stark aufgabenabhängig und oft kontraintuitiv ist. Für Entwickler, die LLM-basierte Anwendungen erstellen, bietet diese Studie eine wertvolle empirische Grundlage für die Entwicklung effektiverer Modellauswahlstrategien, die über anekdotische oder heuristische Ansätze hinausgehen.
Ein groß angelegtes Experiment stellt gängige LLM-Routing-Annahmen in Frage und liefert empirische Belege für eine bessere Modellauswahl.