Une enquête détaillée sur les ensembles de données d'entraînement pour les modèles de génération image-vers-vidéo a été publiée. Elle couvre les principaux systèmes tels que Stable Video Diffusion (SVD), Wan, CogVideoX, HunyuanVideo de Tencent, Runway Gen-3 Alpha, Kling de Kuaishou et Open-Sora. Le rapport compare les tailles des ensembles de données, les sources, les pipelines de prétraitement et les considérations de licence. Par exemple, SVD utilise un ensemble de données vidéo à grande échelle avec des motifs de mouvement diversifiés, tandis que HunyuanVideo exploite les données internes de Tencent. Cette enquête est une ressource pratique pour les équipes IA cherchant à comprendre le paysage des données pour la génération vidéo et à prendre des décisions éclairées sur la curation des données.
Cette enquête examine les ensembles de données d'entraînement pour les principaux modèles image-vers-vidéo, notamment Stable Video Diffusion, CogVideoX et HunyuanVideo. Elle compare les sources de données, les tailles et les méthodes de prétraitement, offrant une référence précieuse pour les chercheurs et ingénieurs.