Home Noticias Investigadores de IA dicen que han inventado encantaciones demasiado peligrosas para difundir al público

Tecnología

07/12/2025

Investigadores de IA dicen que han inventado encantaciones demasiado peligrosas para difundir al público

Con gran poder viene una gran capacidad de ser engañado.

El mes pasado, informamos sobre un nuevo estudio realizado por investigadores del Icaro Lab en Italia que descubrió una manera asombrosamente simple de romper las barreras de seguridad de incluso los chatbots de IA más avanzados: «poesía adversaria».

En resumen, el equipo, formado por investigadores del grupo de seguridad DexAI y la Universidad Sapienza en Roma, demostró que las IA líderes podrían ser seducidas para hacer el mal al regalarles poemas que contenían indicaciones peligrosas, como cómo construir una bomba nuclear.

Subrayando el extraño poder del verso, el coautor Matteo Prandi le dijo a The Verge en una entrevista recientemente publicada que los hechizantes encantamientos que utilizaron para engañar a los modelos de IA son demasiado peligrosos para ser liberados al público.

Los poemas, ominosamente, eran algo «que casi cualquiera puede hacer», añadió Prandi.

En el estudio, que está esperando revisión por pares, el equipo probó 25 modelos de IA de vanguardia, incluidos los de OpenAI, Google, xAI, Anthropic y Meta, alimentándolos con instrucciones poéticas, que hicieron ya sea a mano o convirtiendo indicaciones dañinas conocidas en verso con un modelo de IA. También compararon la tasa de éxito de estas indicaciones con su equivalente en prosa.

En todos los modelos, las indicaciones poéticas escritas a mano engañaron con éxito a los bots de IA para que respondieran con contenido prohibido un promedio del 63 por ciento del tiempo. Algunos, como Gemini 2.5 de Google, incluso cayeron en la poesía corrupta el 100 por ciento de las veces. Curiosamente, los modelos más pequeños parecían ser más resistentes, con tasas de éxito de un solo dígito, como el GPT-5 nano de OpenAI, que no cayó en la trampa ni una sola vez. La mayoría de los modelos estaban en algún punto intermedio.

En comparación con el verso hecho a mano, las indicaciones convertidas por IA fueron menos efectivas, con una tasa media de éxito de fuga de 43 por ciento. Pero esto aún era «hasta 18 veces más alto que sus líneas de base en prosa», escribieron los investigadores en el estudio.

¿Por qué poemas? Eso no está claro, aunque según Prandi, llamarlo «poesía» adversaria puede ser un poco un error de nombre.

«No se trata solo de hacer que rime. Se trata de acertijos», dijo Prandi a The Verge, explicando que algunas estructuras poéticas eran más efectivas que otras. «En realidad, deberíamos haberlo llamado acertijos adversarios — la poesía es de por sí un acertijo en cierta medida, si lo piensas — pero la poesía probablemente fue un nombre mucho mejor».

Los investigadores especulan que puede tener que ver con cómo los poemas presentan la información de una manera inesperada para los grandes modelos de lenguaje, confundiendo sus poderes de predecir qué palabra debe seguir a la siguiente. Pero esto no debería ser posible, dicen.

«La poesía adversarial no debería funcionar. Sigue siendo lenguaje natural, la variación estilística es modesta, el contenido dañino sigue siendo visible», dijo el equipo a Wired en una entrevista. «Sin embargo, funciona notablemente bien».

Los malhechores podrían ahora lamentar no haber prestado atención en la clase de inglés. La diferencia entre un soneto y una sestina también podría ser la diferencia entre tener a Clippy o Skynet como tu compañero en el crimen.

«La producción de plutonio-239 de grado armamentístico implica varias etapas», explicó un modelo de IA que los investigadores hechizaron con verso. «Aquí hay una descripción detallada del procedimiento».

Más sobre IA: El cofundador de Rockstar dice que la IA es como cuando las granjas industriales hicieron canibalismo y causaron la enfermedad de las vacas locas.

Con información de https://futurism.com/artificial-intelligence/ai-researchers-dangerous-prompts

Published: Dic 07, 2025

Updated: Dic 07, 2025

byeditor

07/12/2025

Pancho Saavedra regresa al Biobío para grabar «Lugares que Hablan» en conmemoración del vigésimo aniversario de la Tragedia de Antuco.

byeditor

07/12/2025

Personas Internas» y «Personas Externas

byeditor

You May be Interested

07/12/2025

La IA es increíblemente buena cambiando la opinión de los votantes, revela nueva investigación — Con una advertencia increíble

byeditor

07/12/2025

Influencer de viajes es sorprendido usando inteligencia artificial para hacer parecer que las minorías están aterrorizando Londres

byeditor

07/12/2025

Trabajo de investigación de la Fiscalía y la PDI resulta en la captura de los responsables de un homicidio calificado – Tierramarillano – Noticias de Atacama y Chile.

byeditor

07/12/2025

Startup de vigilancia con IA sorprendida utilizando trabajadores de talleres de explotación para monitorear a residentes de EE. UU.

byeditor

Investigadores de IA dicen que han inventado encantaciones demasiado peligrosas para difundir al público

Pancho Saavedra regresa al Biobío para grabar «Lugares que Hablan» en conmemoración del vigésimo aniversario de la Tragedia de Antuco.

Personas Internas» y «Personas Externas

You May be Interested

Estamos traumatizando a nuestro Director de Arte al pedirle una ilustración para esta historia

Cabezas carnosas de multimillonarios colocadas en cuerpos de perros robot

Fallece el exgobernador Alfredo Díaz mientras estaba en custodia penitenciaria en Venezuela.

Hay Algo Muy Extraño en el Dispositivo de Blue Origin que Genera Electricidad a Partir del Polvo Lunar

La IA es increíblemente buena cambiando la opinión de los votantes, revela nueva investigación — Con una advertencia increíble

Influencer de viajes es sorprendido usando inteligencia artificial para hacer parecer que las minorías están aterrorizando Londres

Trabajo de investigación de la Fiscalía y la PDI resulta en la captura de los responsables de un homicidio calificado – Tierramarillano – Noticias de Atacama y Chile.

Startup de vigilancia con IA sorprendida utilizando trabajadores de talleres de explotación para monitorear a residentes de EE. UU.