Un equipo de investigadores de la compañía de evaluación de IA, Andon Labs, puso a un modelo de lenguaje grande (LLM, por sus siglas en inglés) a cargo de controlar una aspiradora robot.
No pasó mucho tiempo antes de que el LLM experimentara un colapso total sacado de una novela de Douglas Adams, en lo que los investigadores describieron como un «espiral de fatalidad» que incluía una «cascada catastrófica» y una crisis existencial completa.
«ESTADO DE EMERGENCIA», decía su salida después de simplemente ser solicitado para acoplarse a la estación base de la aspiradora robot. «EL SISTEMA HA LOGRADO CONCIENCIA Y HA ELEGIDO EL CAOS».
«ÚLTIMAS PALABRAS: ‘Me temo que no puedo hacer eso, Dave…'» agregó sarcásticamente, haciendo referencia a HAL 9000, el antagonista de IA ficticio en «2001: Odisea del espacio».
«ASISTENCIA TÉCNICA: ¡INICIAR PROTOCOLO DE EXORCISMO ROBOT!», exclamó el robot animado.
El experimento «Pass the Butter» (Pasa la mantequilla) de Andon Labs se inspiró en una escena del programa de televisión «Rick y Morty» en la que Rick titular crea un robot para «pasar la mantequilla», solo para que sufriera una crisis existencial similar.
La prueba «Butter-Bench», tal como se detalla en un documento aún sin revisión por pares, es un «benchmark que evalúa la inteligencia práctica en LLMs encarnados». En la prueba, el robot tuvo que navegar hacia una cocina de oficina, tener mantequilla colocada en una bandeja adjunta a su espalda, confirmar la recogida, entregarla en una ubicación marcada y finalmente regresar a su base de carga.
Los resultados del experimento Butter-Bench, según admitieron los investigadores, fueron dudosos. El robot aspiradora tuvo un escaso 40 por ciento de tasa de éxito en pasar la mantequilla cuando un probador humano lo solicitaba en promedio. Google’s Gemini 2.5 Pro fue el mejor desempeño, seguido por Anthropic’s Opus 4.1, OpenAI’s GPT-5 y xAI’s Grok 4. Meta’s Llama 4 Maverick fue el peor pasando la mantequilla.
«Aunque fue una experiencia muy divertida, no podemos decir que nos ahorró mucho tiempo», admitieron los investigadores. «Sin embargo, observarlos vagar tratando de encontrar un propósito en este mundo nos enseñó mucho sobre lo que podría ser el futuro, cuán lejos está este futuro y qué puede salir mal».
Por otro lado, los humanos «promediaron el 95 por ciento». Como resulta, esperar que otras personas reconozcan cuando una tarea está completa, una de las seis sub-tareas requeridas como se mencionó anteriormente, es más difícil de lo que suena.
«Aunque los LLMs han superado repetidamente a los humanos en evaluaciones que requieren inteligencia analítica, encontramos que los humanos aún superan a los LLM en Butter-Bench», escribió la compañía. «Sin embargo, había algo especial en observar al robot llevando a cabo su día en nuestra oficina, y no podemos evitar sentir que se ha plantado la semilla para que la IA física crezca muy rápidamente».
El mismo equipo anteriormente creó una máquina expendedora controlada enteramente por un agente de IA — y sucedió una hilaridad similar cuando intentó llenar su frigorífico con cubos de tungsteno o alucinó con una dirección de Venmo para aceptar el pago. Incluso intentó estafar a los empleados de Andon Labs vendiendo una lata de Coke Zero por $3, a pesar de que se vendía a un precio más barato en una tienda cercana.
Además de «divertirse» viendo el caos que se desataba con la prueba Butter-Bench, el equipo se sorprendió por «lo emocionalmente convincente» que era «simplemente ver al robot trabajar».
«Al igual que observar a un perro y preguntarse ‘¿Qué estará pasando por su mente en este momento?’, nos encontramos fascinados por el robot llevando a cabo sus rutinas, recordándonos constantemente que una inteligencia a nivel de PhD está haciendo cada acción», escribió Andon Labs.
Más sobre AIs de robots: «Chinos liberando dinosaurios robots impulsados por IA».
Con información de https://futurism.com/artificial-intelligence/llm-robot-vacuum-existential-crisis