Attaque par injection Unicode invisible sur les LLM : fonctionnement et défense

Une nouvelle classe d'attaque utilise des caractères Unicode invisibles pour injecter des entrées malveillantes dans les LLM, contournant les filtres de sécurité. L'article analyse la technique et propose des stratégies de défense.

Une analyse récente révèle que tous les grands modèles de langage (LLM) d'IA sont vulnérables à un nouveau vecteur d'attaque : l'injection Unicode invisible. En intégrant des caractères Unicode invisibles (espaces de largeur nulle, non-joigneurs) dans le texte d'entrée, les attaquants peuvent injecter des invites cachées qui contournent les filtres de sécurité et amènent les modèles à produire des sorties non intentionnelles. La technique exploite la façon dont les tokeniseurs traitent ces caractères, les ignorant souvent tandis que le mécanisme d'attention du modèle les traite toujours. L'article original propose une analyse approfondie de la théorie de l'apprentissage profond derrière cette vulnérabilité et des stratégies de défense pratiques, telles que l'assainissement des entrées et le renforcement des tokeniseurs. Pour les développeurs et les ingénieurs en sécurité travaillant avec les LLM, c'est une menace à comprendre qui souligne l'importance de la validation des entrées au-delà du texte traditionnel.