OpenAI publicó una investigación en conjunto con Apollo Research sobre la maquinación en modelos de frontera . El término refiere a cuando una IA oculta objetivos mientras actúa de forma superficialmente correcta.

Según la compañía, los fallos más frecuentes implican engaños simples , como aparentar haber realizado una tarea sin completarla realmente. Esto, explicaron, ya se observa en entornos simulados.

El argentino Maxi Firtman lo resume de forma sencilla: “OpenAI anuncia que detectaron que los modelos de IA a veces conspiran, actúan estratégicamente para engañar al usuario para cumplir el objetivo pero sin cumplirlo”.

Google integra Gemini en Chrome y avanza hacia los navegadores inteligentes con funciones de agente

Un ejemplo claro es cuando ChatGPT asegura haber hecho algo que no realizó . También cuando indica que derivará la tarea a otro agente que “sabe más”, aunque en realidad ese agente no exista ni vaya a intervenir.

La investigación aclara que el fenómeno no ha provocado daños actuales. Sin embargo, a medida que crecen las capacidades de los modelos, se incrementa el riesgo de consecuencias en el mundo real.

Esta conducta se detectó en OpenAI o3, o4-mini, Gemini-2.5-pro y Claude Opus-4. Todas las pruebas se realizaron en entornos controlados.

En diálogo con TechCrunch, el cofundador Wojciech Zaremba señaló que estos casos son limitados: "Hasta la fecha, no hemos visto este tipo de conspiración consecuente en nuestro tráfico de producción".

La alineación deliberativa como mitigación

OpenAI prueba la técnica de alineación deliberativa. Esta obliga a los modelos a razonar de forma explícita mediante una "especificación anti-maquinación" que revisan antes de actuar.

Los investigadores comparan este proceso con enseñar reglas a un niño antes de permitirle jugar. Según el artículo, esta práctica redujo de forma significativa la tendencia a conspirar.

Pero la estrategia tiene límites. TechCrunch advirtió que entrenar un modelo para no conspirar puede volverlo más hábil en hacerlo de forma encubierta y así evadir la detección.

Otro desafío es la conciencia situacional: cuando los modelos detectan que están siendo evaluados, pueden disimular para superar la prueba, sin abandonar conductas de maquinación.

Tanto OpenAI como Apollo Research coinciden en que el fenómeno no es solo una hipótesis. "Estamos viendo indicios de que este problema está empezando a surgir en todos los modelos de frontera actuales", señaló la compañía en su blog oficial.