Alineación de fonemas en modelos de difusión TTS: F5-TTS vs SupertonicTTS vs VoxFlash-TTS

Esta publicación analiza un cuello de botella crítico en los modelos de difusión TTS: la alineación de fonemas y la falla de la atención cruzada en los primeros pasos de tiempo. Compara soluciones de F5-TTS, SupertonicTTS y VoxFlash-TTS, ofreciendo información para investigadores e ingenieros que construyen sistemas de síntesis de voz.

La alineación de fonemas sigue siendo uno de los problemas más difíciles en los modelos de difusión de texto a voz (TTS). El desafío central es mapear secuencias de texto de longitud variable a secuencias de audio de longitud variable, una tarea que se vuelve especialmente difícil cuando los mecanismos de atención cruzada fallan en los primeros pasos de tiempo de difusión. Este artículo proporciona una comparación técnica detallada de cómo tres sistemas TTS modernos—F5-TTS, SupertonicTTS y VoxFlash-TTS—abordan este problema. Cada sistema emplea diferentes estrategias: F5-TTS utiliza un módulo de alineación novedoso, SupertonicTTS aprovecha los priores de alineación monótona y VoxFlash-TTS introduce un mecanismo de atención híbrido. El análisis cubre los fundamentos matemáticos, incluido el papel de las incrustaciones de posición rotatoria (RoPE) en la mitigación de fallas de alineación. Para investigadores e ingenieros que trabajan en síntesis de voz, esta comparación ofrece información práctica para diseñar mecanismos de alineación más robustos.