Construye un LLM multimodal desde cero: guía de BPE, Transformer, SFT, HiRA

Una guía completa paso a paso para construir un LLM multimodal ligero desde cero, cubriendo tokenizador BPE, Transformer, preentrenamiento, SFT y ajuste fino HiRA.

Este artículo presenta un relato detallado, paso a paso, de la construcción de un modelo de lenguaje grande multimodal ligero desde cero. El autor comienza implementando un tokenizador BPE y los módulos centrales del Transformer desde cero, luego entrena un modelo base de texto a escala GPT-2 Medium. Las secciones siguientes cubren el ajuste fino supervisado de múltiples rondas (SFT), el ajuste fino HiRA, los ajustes de distribución de datos y el diagnóstico de tareas para habilitar capacidades básicas de diálogo e instrucciones cortas. La profundidad práctica es notable, incluyendo explicaciones a nivel de código de las operaciones de multiplicación de matrices y los mecanismos de atención. Para desarrolladores e investigadores interesados en el funcionamiento interno de los modelos multimodales, esto sirve como una excelente referencia que une la teoría y la implementación. El enfoque de ajuste fino HiRA y las estrategias de equilibrio de datos son particularmente valiosos para aquellos que buscan optimizar el rendimiento del modelo en tareas específicas sin recursos computacionales masivos.