DeepSeek, das chinesische KI-Labor, das für seine kosteneffizienten Sprachmodelle bekannt ist, hat offiziell multimodale Bilderkennungsfunktionen eingeführt. Die Funktion ermöglicht es Benutzern, Bilder hochzuladen und KI-generierte Beschreibungen, Analysen und Antworten zu visuellen Inhalten zu erhalten. Dies markiert DeepSeeks Eintritt in den wettbewerbsintensiven multimodalen KI-Bereich, wo es nun direkt mit Angeboten wie GPT-4V von OpenAI und Gemini von Google konkurriert. Für Entwickler und technische Gründer bedeutet dies eine weitere praktikable Option zur Integration von Vision-Language-Fähigkeiten in Anwendungen, möglicherweise zu geringeren Kosten angesichts der wettbewerbsfähigen Preisgestaltung von DeepSeek. Der Start ist besonders bedeutsam für die Open-Source-KI-Community, da DeepSeek zuvor starke Open-Weight-Modelle veröffentlicht hat. Erste Benutzerberichte auf chinesischen Technologieplattformen deuten darauf hin, dass die Funktion gängige Bildverständnisaufgaben gut bewältigt, obwohl strenge Benchmarks von Drittanbietern noch ausstehen.
DeepSeek hat offiziell Bilderkennungsfunktionen eingeführt und betritt damit den multimodalen KI-Bereich. Dies positioniert DeepSeek im Wettbewerb mit etablierten multimodalen Modellen von OpenAI und Google.