Ataque de inyección Unicode invisible en LLM: cómo funciona y cómo defenderse

Una nueva clase de ataque utiliza caracteres Unicode invisibles para inyectar entradas maliciosas en LLM, evitando los filtros de seguridad. El artículo analiza la técnica y propone estrategias de defensa.

Un análisis reciente revela que todos los grandes modelos de lenguaje (LLM) de IA son vulnerables a un nuevo vector de ataque: la inyección Unicode invisible. Al incrustar caracteres Unicode invisibles (espacios de ancho cero, no unidores) en el texto de entrada, los atacantes pueden inyectar indicaciones ocultas que evitan los filtros de seguridad y hacen que los modelos produzcan resultados no deseados. La técnica explota la forma en que los tokenizadores manejan estos caracteres, a menudo ignorándolos mientras el mecanismo de atención del modelo aún los procesa. El artículo original proporciona un análisis profundo de la teoría del aprendizaje profundo detrás de esta vulnerabilidad y ofrece estrategias de defensa prácticas, como la desinfección de entradas y el endurecimiento de tokenizadores. Para los desarrolladores e ingenieros de seguridad que trabajan con LLM, esta es una amenaza que deben comprender y que subraya la importancia de la validación de entradas más allá del texto tradicional.