Synchronisation inter-blocs CUDA sans support matériel : guide d'implémentation logicielle

Cet article explore la synchronisation inter-blocs logicielle dans CUDA pour les appareils dont la capacité de calcul est inférieure à 9.0, où la synchronisation matérielle en cluster n'est pas disponible. L'auteur effectue du rétro-ingénierie sur le mécanisme de groupe coopératif grid.sync() et implémente une fonction sync_ctas personnalisée utilisant des variables de barrière et des opérations atomiques. Il s'agit d'une ressource pratique rare pour les programmeurs GPU confrontés à des défis de synchronisation.

La synchronisation inter-blocs dans CUDA est un défi bien connu, en particulier sur les GPU dont la capacité de calcul est inférieure à 9.0 (par exemple, RTX 4090, V100) qui manquent de synchronisation matérielle en cluster. Un article de blog chinois récent aborde ce problème de front en effectuant du rétro-ingénierie sur le mécanisme de groupe coopératif grid.sync(). L'auteur révèle que grid.sync() repose sur une barrière logicielle utilisant des incréments atomiques et un basculement de bit de signe sur une variable partagée. S'appuyant sur cette idée, ils implémentent une fonction sync_ctas personnalisée qui réalise une synchronisation inter-blocs sans support matériel. L'article comprend des exemples de code détaillés et des considérations de performance, ce qui en fait une ressource précieuse pour les programmeurs GPU travaillant sur des algorithmes parallèles complexes. Ce n'est pas un tutoriel pour débutants mais une analyse technique approfondie qui comble une lacune dans la documentation officielle. Pour les développeurs créant des noyaux CUDA personnalisés nécessitant une synchronisation globale, cette approche offre une solution pratique, bien que non officiellement prise en charge. La nouveauté réside dans l'effort de rétro-ingénierie et l'explication claire du mécanisme sous-jacent, rarement documenté ailleurs.