La conversion de PDF en Markdown propre est une étape critique dans de nombreux pipelines de traitement de documents, en particulier pour la préparation de données RAG et d'entraînement LLM. Cette comparaison évalue quatre outils OCR modernes : PaddleOCR-VL-1.5, MinerU, HunyuanOCR et MonkeyOCR. Chaque outil est testé sur une variété de types de PDF, y compris les documents scannés, les tableaux et les mises en page multi-colonnes. Les métriques clés incluent le taux d'erreur de caractères, la préservation de la structure des tableaux et la vitesse de traitement. PaddleOCR-VL-1.5 montre de bonnes performances sur les documents chinois, tandis que MinerU excelle dans les mises en page complexes. HunyuanOCR offre un bon équilibre entre vitesse et précision, et MonkeyOCR se distingue par son déploiement léger. Les résultats fournissent des conseils pratiques pour les équipes sélectionnant un outil OCR pour la production.
Un benchmark pratique de quatre outils OCR pour la conversion de PDF en Markdown, couvrant la précision, la vitesse et la préservation du format.