Este artículo cubre la tendencia emergente de dar a los grandes modelos de lenguaje una encarnación humana en 3D, permitiéndoles interactuar en entornos físicos o simulados. El autor presenta un marco llamado 'Mofa Xingyun' que une el razonamiento basado en texto con avatares 3D expresivos. Esto representa un paso significativo hacia una interacción humano-IA más natural, con aplicaciones en robótica, asistentes virtuales y juegos. Los desafíos técnicos incluyen renderizado en tiempo real, generación de gestos y mantenimiento de un diálogo coherente entre modalidades. Para los investigadores de IA y equipos de producto, esto señala un cambio de la IA puramente conversacional a agentes encarnados multimodales.
Explorando la transición de agentes de IA puramente basados en texto a sistemas encarnados en 3D que pueden interactuar física y socialmente.