画像から動画を生成するモデルのトレーニングデータセットに関する詳細な調査が公開されました。Stable Video Diffusion(SVD)、Wan、CogVideoX、TencentのHunyuanVideo、Runway Gen-3 Alpha、KuaishouのKling、Open-Soraなど主要システムを網羅。データセットのサイズ、ソース、前処理パイプライン、ライセンス情報を比較しています。例えばSVDは多様なモーションパターンを含む大規模ビデオデータセットを使用し、HunyuanVideoはTencentの内部データを活用。本調査は、動画生成のデータランドスケープを理解し、データキュレーションの意思決定を行うAIチームにとって実用的なリソースです。
Stable Video Diffusion、CogVideoX、HunyuanVideoなど主要な画像-to-動画モデルのトレーニングデータセットを調査。データソース、サイズ、前処理手法を比較し、研究者やエンジニアに貴重なリファレンスを提供。