DeepSeek lance la reconnaissance d'images multimodale : ce que les développeurs doivent savoir

DeepSeek a officiellement lancé des capacités de reconnaissance d'images, entrant dans l'espace IA multimodal. Cette initiative positionne DeepSeek face aux modèles multimodaux établis d'OpenAI et Google.

DeepSeek, le laboratoire d'IA chinois connu pour ses modèles de langage rentables, a officiellement lancé des capacités de reconnaissance d'images multimodales. La fonctionnalité permet aux utilisateurs de télécharger des images et de recevoir des descriptions, analyses et réponses générées par l'IA concernant le contenu visuel. Cela marque l'entrée de DeepSeek dans le domaine concurrentiel de l'IA multimodale, où il défie désormais directement des offres comme GPT-4V d'OpenAI et Gemini de Google. Pour les développeurs et fondateurs techniques, cela représente une autre option viable pour intégrer des capacités de vision-langage dans les applications, potentiellement à moindre coût compte tenu des prix compétitifs de DeepSeek. Ce lancement est particulièrement significatif pour la communauté open-source, DeepSeek ayant déjà publié de solides modèles à poids ouverts. Les premiers retours d'utilisateurs sur les plateformes tech chinoises indiquent que la fonctionnalité gère bien les tâches courantes de compréhension d'images, bien que des benchmarks tiers rigoureux soient encore attendus.