MolmoAct2: Modelo VLA de código abierto con razonamiento profundo adaptativo

MolmoAct2 es un nuevo modelo Vision-Language-Action (VLA) de código abierto que logra razonamiento profundo adaptativo, marcando un gran avance en IA incorporada. Supera a modelos de código abierto anteriores y demuestra capacidades antes solo vistas en sistemas propietarios.

El modelo MolmoAct2 representa un salto significativo en la IA incorporada de código abierto. Como modelo Vision-Language-Action (VLA), integra percepción visual, comprensión del lenguaje y generación de acciones para permitir que los robots interactúen con el mundo físico. La innovación clave es su capacidad de razonamiento profundo adaptativo, que permite al modelo ajustar dinámicamente su profundidad de razonamiento según la complejidad de la tarea. Esto es un alejamiento de los modelos de razonamiento de profundidad fija, permitiendo un rendimiento más eficiente y preciso en diversas tareas. MolmoAct2 ha logrado resultados de vanguardia en varios benchmarks, superando a otros modelos VLA de código abierto y acercándose a sistemas propietarios. Este avance es particularmente importante para la comunidad robótica, ya que democratiza el acceso a capacidades avanzadas de IA incorporada. La naturaleza de código abierto del modelo permite a investigadores y desarrolladores construir sobre él, acelerando el progreso en áreas como navegación autónoma, manipulación e interacción humano-robot. El mecanismo de razonamiento adaptativo también podría inspirar enfoques similares en otros dominios de IA.