Les modèles de diffusion sont devenus un pilier de l'IA générative, mais le choix de la bonne cible de prédiction – epsilon, échantillon (x0) ou prédiction v – peut avoir un impact significatif sur la stabilité de l'entraînement et la qualité des résultats. Cet article propose une comparaison simple de ces trois approches, expliquant quand chacune est la plus efficace. La prédiction epsilon est le choix classique pour la génération d'images, la prédiction d'échantillon simplifie certains calculs de perte, et la prédiction v offre une stabilité améliorée pour les sorties haute résolution. Bien que le contenu ne soit pas nouveau, il sert de référence utile pour les ingénieurs qui implémentent ou affinent des modèles de diffusion. Les compromis entre ces cibles sont essentiels pour les systèmes de production, ce qui en fait une ressource intemporelle précieuse pour la communauté IA.
Une explication claire de la prédiction epsilon, échantillon et v dans les modèles de diffusion, aidant les praticiens à choisir la bonne cible.