拡散モデルは生成AIの基盤となっていますが、予測ターゲット(イプシロン、サンプル(x0)、v予測)の選択は、トレーニングの安定性と出力品質に大きな影響を与えます。この記事では、これら3つのアプローチをわかりやすく比較し、それぞれが最も効果的な状況を説明しています。イプシロン予測は画像生成の古典的な選択肢であり、サンプル予測は特定の損失計算を簡素化し、v予測は高解像度出力の安定性を向上させます。内容は新しいものではありませんが、拡散モデルを実装または微調整するエンジニアにとって有用なリファレンスです。これらのターゲット間のトレードオフは本番システムにとって重要であり、AIコミュニティにとって価値のある evergreen リソースです。
拡散モデルにおけるイプシロン、サンプル、v予測の明確な比較。実践者が適切なターゲットを選ぶのに役立ちます。