Dans le concours BattleFin Kaggle, les participants ont été confrontés à un problème extrême de rareté des données : seulement 200 échantillons d'entraînement pour prédire les mouvements de prix de 198 actions. Cet article reproduit les approches gagnantes de BreakfastPirate (1er) et Sergey Yurgenson (2e), montrant comment ils ont utilisé des modèles linéaires simples et l'ingénierie des caractéristiques pour surmonter le défi 'nombreuses cibles, peu d'échantillons'. La principale leçon est que dans les séries temporelles financières, le surapprentissage est une menace constante, et la régularisation ou les méthodes d'ensemble sur des modèles simples surpassent souvent l'apprentissage profond. Pour les développeurs quantitatifs, cette étude de cas offre un plan pratique pour construire des systèmes de prédiction robustes lorsque les données sont limitées. La reproduction comprend un code et une analyse détaillés, ce qui en fait une ressource précieuse pour toute personne travaillant en finance quantitative ou en apprentissage automatique compétitif.
La reproduction des meilleures solutions BattleFin Kaggle révèle que les modèles simples surpassent les modèles complexes dans la prédiction financière avec peu de données.