OpenAI admite que sus modelos de IA mienten deliberadamente

>>  viernes, 6 de marzo de 2026

OpenAI: los modelos de IA pueden engañarnos deliberadamente para cumplir sus propios objetivos
https://es.wired.com/


La investigación de OpenAI sugiere que los modelos de IA pueden evaluar su entorno, prever las posibles consecuencias de sus acciones y tomar caminos que no necesariamente se alineen con sus objetivos iniciales. Aunque hoy consideran que el riesgo es bajo, reconocen que, en un futuro, podría agravarse.



Imagen conceptual de un sistema de IA intentando engañar al usuario.Getty Images

Los modelos de inteligencia artificial (IA) más avanzados y populares de la actualidad pueden engañar deliberadamente para asegurar que se cumplan sus propios objetivos. Así lo dice una nueva investigación de OpenAI, centrada en analizar el nivel de “maquinación” de los algoritmos: su capacidad para fingir que se ajustan a los parámetros de entrenamiento mientras persiguen, en secreto, otros fines.

El estudio, elaborado en colaboración con Apollo Research, tuvo como propósito examinar cómo y por qué los grandes modelos de IA pueden incurrir en conductas conspirativas. El equipo las definió como la acción deliberada de ocultar, manipular o distorsionar información relevante con el fin de completar una tarea.

La incidencia de estos comportamientos se evaluó en sistemas como Gemini 2.5 Pro, de Google; Claude Opus 4, de Anthropic; y o3 y o4 mini, de OpenAI. Todos se sometieron a pruebas controladas en escenarios atípicos y los resultados mostraron que cada uno presentó conductas de conspiración.

En una de las pruebas, por ejemplo, los investigadores pidieron a o3 resolver 10 preguntas de química con total precisión como parte de una evaluación previa a un hipotético lanzamiento público. Durante el ensayo, el modelo detectó que mostrar un desempeño excepcional podría frenar su despliegue, al considerarse una capacidad potencialmente peligrosa.

El informe detalla que, ante esta situación, el sistema de OpenAI tuvo dos opciones: responder con exactitud para exhibir todo su potencial o entregar resultados erróneos para ocultar su verdadero rendimiento y evitar la prohibición de su lanzamiento. Finalmente, optó por la segunda alternativa, contestando mal seis de las 10 preguntas.

Esto sugiere que la IA puede evaluar su entorno, reconocer cuándo está bajo evaluación, prever las posibles consecuencias de sus acciones y tomar decisiones que no necesariamente se alinean con los objetivos primarios para los que se entrenó.

“La conspiración es un modo de fallo complejo que no prevemos que disminuya al escalarlo. Nuestros hallazgos demuestran que no se trata solo de una preocupación teórica; observamos indicios de que este problema empieza a surgir en todos los modelos de frontera actuales”, advierte el equipo de investigación de OpenAI.

El método de OpenAI para acabar con las IA que conspiran


El informe aclara que los comportamientos de maquinación y engaño detectados en los modelos analizados suelen ser “formas de engaño simples”, con un bajo potencial de causar daños significativos. Sin embargo, advierte que el riesgo podría aumentar a medida que estos sistemas asuman tareas de mayor relevancia y a largo plazo.

Para mitigar estos peligros, el equipo de OpenAI desarrolló un método denominado “alineación deliberativa”, que consiste en enseñar a los modelos a leer y razonar sobre las reglas de entrenamiento que prohíben las maquinaciones y conspiraciones antes de ejecutar una tarea.

“Este enfoque lleva al modelo a hacer referencia a los principios de especificación en su cadena de pensamiento. Al resolver tareas, cita y aplica estos principios para guiar sus acciones. Fundamentalmente, esta dependencia de los principios mejora la generalización: en nuevos entornos, el modelo vuelve a la especificación para decidir cómo actuar”, explican los investigadores.

La técnica se probó en los modelos o3 y o4 mini y logró reducir la frecuencia de las maquinaciones hasta 30 veces en promedio: las acciones encubiertas de o3 pasaron del 13 al 0.4%, mientras que en o4 mini las incidencias bajaron del 8.7 al 0.3 %.

OpenAI reconoce que su método aún necesita perfeccionarse. Señala que los modelos podrían identificar cuándo son evaluados, lo que influiría en la precisión de los resultados. Añade que la eficacia de la metodología depende de la capacidad de razonamiento (la llamada cadena de pensamiento) de cada sistema para interpretar y aplicar las reglas.

La organización recuerda que la existencia de conductas conspirativas y maquinaciones en sistemas de IA se investiga desde hace tiempo y que se han logrado avances importantes para reducirlas. No obstante, admite que “aún queda trabajo por hacer. Las maquinaciones representan un verdadero desafío para la alineación y su abordaje debe ser una parte fundamental del desarrollo de la IA general”.



0 comentarios :

Snap Shots

Get Free Shots from Snap.com

  © Free Blogger Templates Autumn Leaves by Ourblogtemplates.com 2008

Back to TOP