Cet article explore l'extension de l'encodage de position relative (RPE) des séquences 1D aux images 2D dans Swin Transformer. S'appuyant sur le RPE basé sur le biais de T5 avec partitionnement par buckets, l'auteur détaille les choix de conception pour les relations spatiales 2D, y compris la gestion séparée des dimensions de hauteur et de largeur. L'article couvre la formulation mathématique, les considérations d'implémentation et comment cette approche réalise un encodage de position efficace pour les tâches de vision. C'est une ressource précieuse pour les chercheurs et ingénieurs travaillant sur les transformateurs de vision.
Une explication détaillée de la façon dont Swin Transformer étend le RPE basé sur le biais 1D aux images 2D, avec des informations sur l'implémentation.