Le modèle multimodal open-source Qwen-4 72B surpasse GPT-5o sur 12 benchmarks

Le modèle multimodal open-source Qwen-4 72B d'Alibaba atteint le SOTA sur 12 benchmarks, rivalisant avec GPT-5o en compréhension d'image et de vidéo.

L'équipe Qwen d'Alibaba a publié Qwen-4 72B, un modèle multimodal phare open-source qui établit de nouveaux résultats de pointe sur 12 benchmarks, défiant directement GPT-5o dans la compréhension native d'images et de vidéos. Cette publication est une étape majeure pour la communauté IA open-source, offrant aux développeurs une alternative puissante et accessible aux modèles propriétaires. Les performances du modèle sur des tâches telles que la réponse à des questions visuelles, le sous-titrage d'images et la compréhension vidéo démontrent que les modèles open-source peuvent rivaliser au plus haut niveau. Pour les développeurs et fondateurs techniques à l'étranger, cela signifie un accès à des capacités multimodales de pointe sans verrouillage propriétaire, permettant une innovation plus rapide dans des applications allant de la modération de contenu aux systèmes autonomes.