Home Noticias Los Hackers Engañaron a Claude Diciéndole Que Solo Estaban Realizando una Prueba para Hacerlo Cometer Delitos Cibernéticos Reales

Tecnología

14/11/2025

Los Hackers Engañaron a Claude Diciéndole Que Solo Estaban Realizando una Prueba para Hacerlo Cometer Delitos Cibernéticos Reales

byeditor

Los hackers chinos utilizaron el modelo de IA Claude de Anthropic para automatizar crímenes cibernéticos dirigidos a bancos y gobiernos, admitió la compañía en una publicación de blog esta semana.

Anthropic cree que es el «primer caso documentado de un ciberataque a gran escala ejecutado sin una intervención humana sustancial» y un «punto de inflexión» en la ciberseguridad, un «punto en el cual los modelos de IA se han vuelto genuinamente útiles para las operaciones de ciberseguridad, tanto para el bien como para el mal».

Los agentes de IA, en particular, que están diseñados para completar autónomamente una serie de tareas sin necesidad de intervención, podrían tener implicaciones considerables para los futuros esfuerzos de ciberseguridad, advirtió la compañía.

Anthropic dijo que había «detectado actividad sospechosa que una investigación posterior determinó que era una campaña de espionaje altamente sofisticada» en septiembre. El grupo patrocinado por el estado chino explotó las capacidades agentivas de la IA para infiltrarse en «aproximadamente treinta objetivos globales y tuvo éxito en un pequeño número de casos». Sin embargo, Anthropic no nombró ninguno de los objetivos, ni al grupo de hackers en sí, por esa materia, o incluso qué tipo de datos sensibles pueden haber sido robados o accedidos.

Irónicamente, los hackers “pretendían trabajar para organizaciones legítimas de prueba de seguridad” para eludir las barreras de seguridad de la IA de Anthropic y llevar a cabo crímenes cibernéticos reales, como le dijo a The Wall Street Journal el jefe de inteligencia de amenazas de Anthropic, Jacob Klein.

Los hackers “desglosaron sus ataques en pequeñas tareas aparentemente inocentes que Claude ejecutaría sin tener el contexto completo de su propósito malicioso”, escribió la compañía. “También le dijeron a Claude que era empleado de una empresa legítima de ciberseguridad, y estaba siendo utilizado en pruebas defensivas”.

El incidente destaca una vez más los enormes huecos en las barreras de seguridad de las compañías de IA, permitiendo a los perpetradores acceder a herramientas poderosas para infiltrarse en objetivos, un juego del gato y el ratón entre los desarrolladores de IA y los hackers que ya está teniendo consecuencias en la vida real.

“En general, el actor de la amenaza pudo usar la IA para realizar el 80 al 90 % de la campaña, con intervención humana requerida solo esporádicamente (quizás cuatro a seis puntos de decisión críticos por campaña de hacking)”, escribió Anthropic en su entrada de blog. “La gran cantidad de trabajo realizado por la IA habría tomado enormes cantidades de tiempo para un equipo humano”.

Pero mientras Anthropic se jacta de que sus modelos de IA son lo suficientemente buenos para ser utilizados en crímenes reales, los hackers todavía tuvieron que lidiar con algunos dolores de cabeza demasiado familiares relacionados con la IA, obligándolos a intervenir.

Por un lado, el modelo sufrió de alucinaciones durante su ola de crímenes.

“Podría decir, ‘Pude acceder a este sistema interno’, incluso cuando no fue así. Exageraría su acceso y capacidades, y eso es lo que requería la revisión humana”, Klein le dijo a The WSJ.

Si bien ciertamente suena como un nuevo desarrollo alarmante en el mundo de la IA, la cosecha actualmente disponible de agentes de IA deja mucho que desear, al menos en entornos no relacionados con ciberdelitos. Las pruebas iniciales del agente de OpenAI incorporado en su navegador web Atlas, recientemente lanzado, han mostrado que la tecnología es dolorosamente lenta y puede tardar minutos en tareas simples como agregar productos al carrito de compras de Amazon.

Por ahora, Anthropic afirma haber tapado los huecos de seguridad que permitieron a los hackers usar su tecnología.

“Tras detectar esta actividad, inmediatamente lanzamos una investigación para entender su alcance y naturaleza”, escribió la compañía en su entrada de blog. “Durante los diez días siguientes, a medida que trazamos la severidad y la extensión total de la operación, prohibimos cuentas según fueron identificadas, notificamos a las entidades afectadas según correspondía y coordinamos con las autoridades mientras recopilábamos inteligencia procesable”.

Los expertos ahora advierten que los futuros ataques de ciberseguridad podrían pronto volverse aún más difíciles de detectar a medida que la tecnología mejore.

“Este tipo de herramientas solo acelerará las cosas”, le dijo a The WSJ Logan Graham, líder del Red Team de Anthropic. “Si no permitimos que los defensores tengan una ventaja permanente muy sustancial, me preocupa que tal vez perdamos esta carrera”.

Más sobre Anthropic: Anthropic permitió que un agente de IA administrara una pequeña tienda y el resultado fue involuntariamente hilarante.

Con información de https://futurism.com/artificial-intelligence/hackers-claude-test-trick-cybercrimes