DeepSeek startet multimodale Bilderkennung: Was Entwickler wissen müssen

DeepSeek hat offiziell Bilderkennungsfunktionen eingeführt und betritt damit den multimodalen KI-Bereich. Dies positioniert DeepSeek im Wettbewerb mit etablierten multimodalen Modellen von OpenAI und Google.

DeepSeek, das chinesische KI-Labor, das für seine kosteneffizienten Sprachmodelle bekannt ist, hat offiziell multimodale Bilderkennungsfunktionen eingeführt. Die Funktion ermöglicht es Benutzern, Bilder hochzuladen und KI-generierte Beschreibungen, Analysen und Antworten zu visuellen Inhalten zu erhalten. Dies markiert DeepSeeks Eintritt in den wettbewerbsintensiven multimodalen KI-Bereich, wo es nun direkt mit Angeboten wie GPT-4V von OpenAI und Gemini von Google konkurriert. Für Entwickler und technische Gründer bedeutet dies eine weitere praktikable Option zur Integration von Vision-Language-Fähigkeiten in Anwendungen, möglicherweise zu geringeren Kosten angesichts der wettbewerbsfähigen Preisgestaltung von DeepSeek. Der Start ist besonders bedeutsam für die Open-Source-KI-Community, da DeepSeek zuvor starke Open-Weight-Modelle veröffentlicht hat. Erste Benutzerberichte auf chinesischen Technologieplattformen deuten darauf hin, dass die Funktion gängige Bildverständnisaufgaben gut bewältigt, obwohl strenge Benchmarks von Drittanbietern noch ausstehen.