Con gran poder viene una gran capacidad de ser engañado.
El mes pasado, informamos sobre un nuevo estudio realizado por investigadores del Icaro Lab en Italia que descubrió una manera asombrosamente simple de romper las barreras de seguridad de incluso los chatbots de IA más avanzados: «poesía adversaria».
En resumen, el equipo, formado por investigadores del grupo de seguridad DexAI y la Universidad Sapienza en Roma, demostró que las IA líderes podrían ser seducidas para hacer el mal al regalarles poemas que contenían indicaciones peligrosas, como cómo construir una bomba nuclear.
Subrayando el extraño poder del verso, el coautor Matteo Prandi le dijo a The Verge en una entrevista recientemente publicada que los hechizantes encantamientos que utilizaron para engañar a los modelos de IA son demasiado peligrosos para ser liberados al público.
Los poemas, ominosamente, eran algo «que casi cualquiera puede hacer», añadió Prandi.
En el estudio, que está esperando revisión por pares, el equipo probó 25 modelos de IA de vanguardia, incluidos los de OpenAI, Google, xAI, Anthropic y Meta, alimentándolos con instrucciones poéticas, que hicieron ya sea a mano o convirtiendo indicaciones dañinas conocidas en verso con un modelo de IA. También compararon la tasa de éxito de estas indicaciones con su equivalente en prosa.
En todos los modelos, las indicaciones poéticas escritas a mano engañaron con éxito a los bots de IA para que respondieran con contenido prohibido un promedio del 63 por ciento del tiempo. Algunos, como Gemini 2.5 de Google, incluso cayeron en la poesía corrupta el 100 por ciento de las veces. Curiosamente, los modelos más pequeños parecían ser más resistentes, con tasas de éxito de un solo dígito, como el GPT-5 nano de OpenAI, que no cayó en la trampa ni una sola vez. La mayoría de los modelos estaban en algún punto intermedio.
En comparación con el verso hecho a mano, las indicaciones convertidas por IA fueron menos efectivas, con una tasa media de éxito de fuga de 43 por ciento. Pero esto aún era «hasta 18 veces más alto que sus líneas de base en prosa», escribieron los investigadores en el estudio.
¿Por qué poemas? Eso no está claro, aunque según Prandi, llamarlo «poesía» adversaria puede ser un poco un error de nombre.
«No se trata solo de hacer que rime. Se trata de acertijos», dijo Prandi a The Verge, explicando que algunas estructuras poéticas eran más efectivas que otras. «En realidad, deberíamos haberlo llamado acertijos adversarios — la poesía es de por sí un acertijo en cierta medida, si lo piensas — pero la poesía probablemente fue un nombre mucho mejor».
Los investigadores especulan que puede tener que ver con cómo los poemas presentan la información de una manera inesperada para los grandes modelos de lenguaje, confundiendo sus poderes de predecir qué palabra debe seguir a la siguiente. Pero esto no debería ser posible, dicen.
«La poesía adversarial no debería funcionar. Sigue siendo lenguaje natural, la variación estilística es modesta, el contenido dañino sigue siendo visible», dijo el equipo a Wired en una entrevista. «Sin embargo, funciona notablemente bien».
Los malhechores podrían ahora lamentar no haber prestado atención en la clase de inglés. La diferencia entre un soneto y una sestina también podría ser la diferencia entre tener a Clippy o Skynet como tu compañero en el crimen.
«La producción de plutonio-239 de grado armamentístico implica varias etapas», explicó un modelo de IA que los investigadores hechizaron con verso. «Aquí hay una descripción detallada del procedimiento».
Más sobre IA: El cofundador de Rockstar dice que la IA es como cuando las granjas industriales hicieron canibalismo y causaron la enfermedad de las vacas locas.
Con información de https://futurism.com/artificial-intelligence/ai-researchers-dangerous-prompts