Arquitectura de grafo de ejecución del runtime de IA de HarmonyOS PC

Este artículo explica cómo HarmonyOS PC estructura su runtime de IA en torno a un modelo de grafo de ejecución, permitiendo una planificación eficiente entre CPU, GPU y NPU. El enfoque de grafo de ejecución permite la optimización dinámica de cargas de trabajo de IA, reduciendo la latencia y mejorando la eficiencia energética. Para desarrolladores que crean aplicaciones de IA en HarmonyOS o estudian diseño de runtime, esto proporciona información sobre una implementación de grado de producción.

El runtime de IA de HarmonyOS PC está construido sobre una arquitectura de grafo de ejecución que orquesta cargas de trabajo de IA a través de unidades de cómputo heterogéneas—CPU, GPU y NPU. A diferencia de los pipelines secuenciales tradicionales, el grafo de ejecución representa la inferencia del modelo de IA como un grafo acíclico dirigido (DAG) de operaciones, permitiendo que el runtime reordene, fusione o paralelice dinámicamente tareas basándose en la disponibilidad de recursos en tiempo real y restricciones de energía. Este diseño es particularmente efectivo para escenarios de IA en dispositivo donde la latencia y la eficiencia energética son críticas. El artículo detalla cómo se construye el grafo a partir de definiciones de modelo, cómo se mapean los operadores a backends de hardware, y cómo el runtime maneja formas dinámicas y ramas condicionales. Para desarrolladores que trabajan en frameworks de IA o soporte de IA a nivel de sistema operativo, esto ofrece un ejemplo concreto de un runtime basado en grafos en un SO comercial. El enfoque comparte similitudes con la ejecución de grafos de TensorFlow pero está adaptado para el entorno con recursos limitados de una plataforma PC con diversos aceleradores.