Un consensus croissant dans la communauté du génie logiciel en IA estime que l'évaluation des agents LLM uniquement sur les sorties finales néglige des aspects critiques de la performance. Cet article de blog technique chinois met en lumière la pratique émergente de l'évaluation au niveau de la trajectoire, qui examine les étapes de raisonnement, les modèles d'utilisation des outils et les comportements de récupération d'erreurs. Pour les équipes construisant des systèmes d'agents de production, ce passage de métriques basées uniquement sur les sorties à une évaluation au niveau du processus est essentiel pour le débogage, la sécurité et l'amélioration continue. L'article reflète une tendance industrielle plus large vers des cadres de qualité d'agents plus nuancés.
Cet article soutient qu'évaluer les agents LLM uniquement sur les réponses finales est insuffisant ; l'évaluation au niveau de la trajectoire offre des perspectives plus approfondies.