Un nuevo estudio evaluó la capacidad de la IA para realizar trabajo autónomo en línea, y los resultados son condenatorios

¿Tus molestos freelancers remotos demandan más dinero a medida que la inflación se dispara? Podrías intentar reemplazarlos con agentes de IA, pero probablemente no resulte bien.

Una nueva investigación resaltada por Wired muestra cómo estos modelos de IA, diseñados para automatizar tareas, si no trabajos enteros, resultan ser increíblemente improductivos en comparación con los humanos que están reemplazando.

Realizada por investigadores del Centro para la Seguridad de IA (CAIS) y la enorme firma de anotación de datos Scale AI, cuyo ejército de freelancers realiza gran parte del trabajo pesado que sustenta la industria de la IA, las pruebas involucraron dar a seis agentes de IA líderes diversas tareas simuladas de freelance.

El resultado de esas pruebas, detallado en un nuevo artículo, fue devastador. Ningún agente de IA pudo realizar más del 3 por ciento del trabajo, ganando solo $1,810 de un posible $143,991.

«Espero que esto dé una impresión mucho más precisa sobre lo que está sucediendo con las capacidades de la IA», dijo Dan Hendrycks, director de DAIS, a Wired.

Para las pruebas, los investigadores desarrollaron su propio índice llamado Índice de Trabajo Remoto, que utiliza una amplia gama de proyectos remotos del mundo real para evaluar la capacidad de los bots para realizar trabajos económicamente valiosos en industrias que van desde el desarrollo de juegos hasta el análisis de datos.

El mejor desempeño, encontraron, fue un agente de IA de la startup china Manus con una tasa de automatización de solo el 2.5 por ciento, lo que significa que solo fue capaz de completar el 2.5 por ciento de los proyectos que se le asignaron a un nivel que sería aceptable como trabajo encargado en un trabajo de freelance en el mundo real, dijeron los investigadores.

El segundo lugar fue un empate, al 2.1 por ciento, entre Grok 4 de Elon Musk y Claude Sonnet 4.5 de Anthropic, que la empresa afirma es el «mejor modelo de codificación del mundo» y el «modelo más fuerte para construir agentes complejos».

El modelo GPT-5 más nuevo de OpenAI y su supuesta inteligencia de «nivel de doctorado» vinieron después con el 1.7 por ciento. Sam Altman, CEO, ha afirmado que GPT-5 es un «paso significativo en el camino hacia la AGI,» o inteligencia general artificial, un sistema de IA hipotético que la mayoría define como que supera las capacidades cognitivas humanas en prácticamente todos los aspectos. (OpenAI considera que la AGI son «sistemas altamente autónomos que superan a los humanos en la mayoría del trabajo económicamente valioso», algo que el índice RLI muestra que GPT-5 está lejos de lograr).

I

rónicamente, el agente real de IA de OpenAI, con el emocionante nombre de marca ChatGPT Agent, fue el segundo peor desempeño de todo el grupo, apenas superando el 1.3 por ciento. Pero la opción absolutamente peor fue Gemini 2.5 Pro de Google, con un desempeño lamentable del 0.8 por ciento.

Vender agentes de IA a empleadores ha sido la obsesión de la industria de la IA mientras los principales jugadores como OpenAI luchan por capitalizar la popularidad de sus chatbots de IA, muchos de los cuales son gratuitos para usar. Pero a pesar de que muchos CEO están entusiasmados cediendo sus fuerzas laborales y abrazando la IA, queda por ver si la automatización es capaz de aumentar realmente la productividad, y mucho menos compensar la falta de talento humano que está reemplazando.

«Hemos debatido sobre la IA y los trabajos durante años, pero la mayoría ha sido hipotético o teórico», dijo el director de investigación de Scale AI, Bing Lie, a Wired.

Anecdóticamente, muchos jefes que reemplazaron a sus empleados con IA se han visto obligados a volver a contratarlos después de descubrir que las herramientas de IA no estaban a la altura, y una serie de investigaciones están pintando una imagen igualmente devastadora. Un estudio del MIT encontró que el 95 por ciento de las empresas que pilotaron iniciativas de IA no vieron un crecimiento significativo en ingresos. Otro demostró que introducir herramientas de IA en los flujos de trabajo de los empleados resultó en un diluvio de «chapuza» de baja calidad, lo cual no solo lo ralentizó todo debido a su necesidad de ser revisado en gran medida por errores, sino que creó tensión entre compañeros de trabajo que resentían tener que corregir dicho trabajo perezoso.

Hendrycks señaló algunos de los defectos que aún plaguen a los agentes de IA, a pesar de los rápidos avances del campo. «No tienen almacenamiento de memoria a largo plazo y no pueden aprender continuamente de las experiencias. No pueden adquirir habilidades en el trabajo como los humanos», dijo a Wired.

Hasta ahora, sin embargo, estos defectos evidentes no parecen haber frenado el tren de carga de despidos relacionados con la IA. Si acaso, todavía están cobrando más impulso.

Más sobre IA: Después de derribar Internet, Amazon anuncia el mayor despido masivo en su historia.

Con información de https://futurism.com/artificial-intelligence/paper-tested-ai-online-freelance-work

Previous Post
Next Post
Advertisement