Architecture du graphe d'exécution du runtime IA HarmonyOS PC

Cet article explique comment HarmonyOS PC structure son runtime IA autour d'un modèle de graphe d'exécution, permettant une planification efficace entre CPU, GPU et NPU. L'approche par graphe d'exécution permet l'optimisation dynamique des charges de travail IA, réduisant la latence et améliorant l'efficacité énergétique. Pour les développeurs créant des applications IA sur HarmonyOS ou étudiant la conception de runtime, cela fournit un aperçu d'une implémentation de qualité production.

Le runtime IA de HarmonyOS PC est construit sur une architecture de graphe d'exécution qui orchestre les charges de travail IA sur des unités de calcul hétérogènes—CPU, GPU et NPU. Contrairement aux pipelines séquentiels traditionnels, le graphe d'exécution représente l'inférence de modèle IA comme un graphe acyclique dirigé (DAG) d'opérations, permettant au runtime de réorganiser, fusionner ou paralléliser dynamiquement les tâches en fonction de la disponibilité des ressources en temps réel et des contraintes de puissance. Cette conception est particulièrement efficace pour les scénarios IA sur appareil où la latence et l'efficacité énergétique sont critiques. L'article détaille comment le graphe est construit à partir de définitions de modèle, comment les opérateurs sont mappés aux backends matériels, et comment le runtime gère les formes dynamiques et les branches conditionnelles. Pour les développeurs travaillant sur des frameworks IA ou un support IA au niveau du système d'exploitation, cela offre un exemple concret d'un runtime basé sur graphe dans un OS commercial. L'approche partage des similitudes avec l'exécution de graphe de TensorFlow mais est adaptée à l'environnement contraint en ressources d'une plateforme PC avec divers accélérateurs.