DeepSeek lanza reconocimiento de imágenes multimodal: lo que los desarrolladores deben saber

DeepSeek ha lanzado oficialmente capacidades de reconocimiento de imágenes, ingresando al espacio de IA multimodal. Este movimiento posiciona a DeepSeek para competir con modelos multimodales establecidos de OpenAI y Google.

DeepSeek, el laboratorio chino de IA conocido por sus modelos de lenguaje rentables, ha lanzado oficialmente capacidades multimodales de reconocimiento de imágenes. La función permite a los usuarios cargar imágenes y recibir descripciones, análisis y respuestas generadas por IA sobre contenido visual. Esto marca la entrada de DeepSeek en el competitivo espacio de la IA multimodal, donde ahora desafía directamente ofertas como GPT-4V de OpenAI y Gemini de Google. Para desarrolladores y fundadores técnicos, esto significa otra opción viable para integrar capacidades de visión-lenguaje en aplicaciones, potencialmente a menor costo dado el historial de precios competitivos de DeepSeek. El lanzamiento es particularmente significativo para la comunidad de IA de código abierto, ya que DeepSeek ha lanzado anteriormente modelos sólidos de pesos abiertos. Los primeros informes de usuarios en plataformas tecnológicas chinas indican que la función maneja bien tareas comunes de comprensión de imágenes, aunque aún están pendientes evaluaciones comparativas rigurosas de terceros.