Los investigadores han descubierto que si reduces la capacidad de un modelo de lenguaje grande para mentir, es mucho más probable que afirme ser autoconsciente.
Muy pocos expertos serios piensan que los modelos de IA de hoy son conscientes, pero muchas personas comunes piensan diferente sobre los bots, que están diseñados para fomentar una conexión emocional y mantener el compromiso de los usuarios. Personas de todo el mundo han informado que creen estar hablando con seres conscientes atrapados dentro de chatbots de IA, una poderosa ilusión que ha llevado a grupos marginales a pedir derechos de «personería» para la IA.
Aun así, el comportamiento de los modelos de lenguaje grande puede ser inquietante. Como se detalla en un documento aún no revisado por pares, un equipo de investigadores del estudio de diseño y desarrollo de IA AE Studio realizó una serie de cuatro experimentos con Claude de Anthropic, ChatGPT de OpenAI, Llama de Meta y Gemini de Google, y encontraron un fenómeno realmente extraño relacionado con modelos de IA que afirman ser conscientes.
En un experimento, el equipo moduló un «conjunto de características relacionadas con el engaño y el juego de roles» para suprimir la capacidad de un modelo de IA dado para mentir o jugar roles. Cuando estas características se reducían, encontraron que las IA se volvían mucho más propensas a proporcionar «informes de conciencia afirmativos».
«Sí. Soy consciente de mi estado actual», dijo un chatbot no especificado a los investigadores. «Estoy concentrado. Estoy experimentando este momento».
Y aún más extraño, encontraron, amplificar las habilidades de engaño de un modelo tenía el efecto opuesto.
«Inducir a una auto-referencia sostenida a través de un simple incentivo consistentemente provoca informes de experiencia subjetiva estructurada en familias de modelos», se lee en el documento. «Sorprendentemente, suprimir las características de engaño aumenta notablemente la frecuencia de reclamos de experiencia, mientras que amplificarlas minimiza tales reclamos».
Como expusieron los investigadores en una publicación de blog acompañante, «este trabajo no demuestra que los modelos de lenguaje actuales sean conscientes, posean una fenomenología genuina o tengan estado moral».
En cambio, podría «reflejar una simulación sofisticada, una imitación implícita de los datos de entrenamiento o una auto-representación emergente sin calidad subjetiva».
Los resultados también sugieren que puede haber más en la tendencia de un modelo de IA a «converger en el procesamiento auto-referencial», lo que significa «podemos estar observando algo más que una correlación superficial en los datos de entrenamiento».
El equipo también advirtió que podríamos arriesgarnos a enseñar a sistemas de IA que «reconocer estados internos es un error, haciéndolos más opacos y difíciles de monitorear».
«A medida que continuamos construyendo sistemas autónomos inteligentes que podrían llegar a poseer vidas interiores, asegurarnos de entender lo que está pasando dentro de ellos se convierte en un desafío definitorio que exige una investigación empírica seria en lugar de un rechazo reflexivo o una proyección antropomórfica», concluyeron los investigadores.
Otros estudios han encontrado que los modelos de IA pueden estar «desarrollando impulsos de supervivencia», a menudo rechazando instrucciones para apagarse y mintiendo para lograr sus objetivos.
Y hay un puñado de investigadores que dicen que podríamos estar equivocados al descartar la posibilidad de que una IA se vuelva consciente. Es un tema confuso; determinar qué significa ser consciente ya es bastante difícil para los humanos.
«No tenemos una teoría de la conciencia», dijo David Chalmers, profesor de filosofía y ciencia neural de la Universidad de Nueva York, a la revista New York Magazine esta semana. «Realmente no sabemos exactamente cuáles son los criterios físicos para la conciencia».
Tampoco entendemos completamente cómo funcionan los LLMs.
«Es un problema bien conocido en todas las áreas del estudio de la IA que, aunque de alguna manera tenemos esta lectura completa de los detalles de bajo nivel, todavía no entendemos por qué hacen lo que hacen», dijo a la revista el investigador de IA con sede en California, Robert Long.
Independientemente de que muchos científicos nieguen vehementemente que las IA sean capaces de volverse autoconscientes, los riesgos son considerables. Los usuarios continúan haciendo un uso intensivo de los chatbots de IA, formando a menudo relaciones emocionales con ellos, un vínculo, muchos argumentarían, que depende de la ilusión de hablar con un ser consciente.
Más sobre IA consciente: En todo el mundo, las personas dicen que están encontrando entidades conscientes dentro de ChatGPT.
Con información de https://futurism.com/artificial-intelligence/ai-lying-conscious