Convertir PDF a Markdown limpio es un paso crítico en muchos pipelines de procesamiento de documentos, especialmente para la preparación de datos RAG y de entrenamiento de LLM. Esta comparación evalúa cuatro herramientas OCR modernas: PaddleOCR-VL-1.5, MinerU, HunyuanOCR y MonkeyOCR. Cada herramienta se prueba en una variedad de tipos de PDF, incluidos documentos escaneados, tablas y diseños de varias columnas. Las métricas clave incluyen la tasa de error de caracteres, la preservación de la estructura de tablas y la velocidad de procesamiento. PaddleOCR-VL-1.5 muestra un rendimiento sólido en documentos chinos, mientras que MinerU sobresale en diseños complejos. HunyuanOCR ofrece un buen equilibrio entre velocidad y precisión, y MonkeyOCR se destaca por su implementación ligera. Los resultados proporcionan una guía práctica para los equipos que seleccionan una herramienta OCR para producción.
Un benchmark práctico de cuatro herramientas OCR para convertir PDF a Markdown, evaluando precisión, velocidad y preservación del formato.