模倣学習はロボットや自律エージェントの訓練における重要な手法です。本記事では、専門家のデモンストレーションから教師あり学習で学ぶBehavior Cloningと、現在のポリシーの下で新しいデータを反復収集して分布シフトを補正するDAggerという2つの基礎アルゴリズムを明確に解説します。コンパウンドエラーやデータ効率の利点など、実践的なトレードオフをカバーしています。新しい研究やベンチマークは含まれていませんが、ロボット学習パイプラインを構築するエンジニアにとって有用なリファレンスです。
ロボット学習のためのBehavior CloningとDAggerアルゴリズムの技術比較。