Normalisation des latents VAE pour Flow Matching en TTS | Analyse approfondie

Une analyse rigoureuse des statistiques des latents VAE et de la normalisation par canal pour l'entraînement du Flow Matching en TTS, avec des enseignements pratiques de VoxFlash-TTS.

Un article technique détaillé sur la plateforme CNBlogs aborde systématiquement un défi d'ingénierie critique dans l'entraînement des modèles de Flow Matching pour la synthèse vocale : les propriétés statistiques des représentations latentes VAE et leur impact sur la stabilité et la qualité de l'entraînement. L'auteur dérive la moyenne et la variance des distributions d'entrée et du champ de vélocité sous les chemins de Optimal Transport Conditional Flow Matching (OT-CFM), et analyse comment le poids de divergence KL du VAE influence la dispersion des nuages de points latents. S'inspirant de la théorie du décalage SNR (SNR mismatch) du domaine de la génération d'images, l'article propose une normalisation par canal comme solution pratique pour améliorer l'entraînement du Flow Matching. L'analyse est ancrée dans un système TTS réel, VoxFlash-TTS, ce qui la rend très pertinente pour les praticiens construisant des modèles audio génératifs. Ce n'est pas un tutoriel pour débutants mais une exploration théorique et pratique approfondie qui bénéficiera aux ingénieurs et chercheurs travaillant sur les modèles génératifs basés sur le flux pour la parole et l'audio.