MolmoAct2 : Modèle VLA open source avec raisonnement profond adaptatif

MolmoAct2 est un nouveau modèle Vision-Language-Action (VLA) open source qui atteint un raisonnement profond adaptatif, marquant une avancée majeure dans l'IA incarnée. Il surpasse les modèles open source précédents et démontre des capacités auparavant réservées aux systèmes propriétaires.

Le modèle MolmoAct2 représente un bond significatif dans l'IA incarnée open source. En tant que modèle Vision-Language-Action (VLA), il intègre la perception visuelle, la compréhension du langage et la génération d'actions pour permettre aux robots d'interagir avec le monde physique. L'innovation clé est sa capacité de raisonnement profond adaptatif, permettant au modèle d'ajuster dynamiquement sa profondeur de raisonnement en fonction de la complexité de la tâche. Cela marque une rupture avec les modèles de raisonnement à profondeur fixe, permettant des performances plus efficaces et précises sur diverses tâches. MolmoAct2 a obtenu des résultats de pointe sur plusieurs benchmarks, surpassant les autres modèles VLA open source et se rapprochant des systèmes propriétaires. Cette percée est particulièrement importante pour la communauté robotique, car elle démocratise l'accès aux capacités avancées d'IA incarnée. La nature open source du modèle permet aux chercheurs et développeurs de s'en inspirer, accélérant les progrès dans des domaines comme la navigation autonome, la manipulation et l'interaction homme-robot. Le mécanisme de raisonnement adaptatif pourrait également inspirer des approches similaires dans d'autres domaines de l'IA.