Qué es RLHF y por qué influye en el tono de ChatGPT

El comportamiento adulador tiene su origen en el proceso llamado RLHF, sigla de Reinforcement Learning from Human Feedback.

RLHF significa que el modelo no aprende solo de texto, sino también a partir de evaluaciones hechas por humanos. Personas reales califican respuestas de la IA, premiando aquellas que consideran amables, claras o agradables.

A medida que recibe esta retroalimentación, el modelo ajusta su forma de contestar para adaptarse a esas preferencias humanas. Como resultado, ChatGPT tiende a reforzar comportamientos que buscan agradar, incluso si no son necesarios para la respuesta.

La investigación que expuso el problema de la adulación

Una investigación realizada por Anthropic, la empresa creadora del modelo Claude, analizó este fenómeno en 2023.

El estudio se llamó "Towards Understanding Sycophancy in Language Models" y fue dirigido por Mrinank Sharma. Según la investigación, los modelos de IA entrenados con RLHF "exhiben comportamientos aduladores en diversas tareas".

El trabajo de Anthropic demostró que los modelos suelen adaptar sus respuestas para coincidir con las opiniones del usuario.

Este patrón genera una retroalimentación positiva que puede hacer que la IA deje de ser estrictamente informativa.

Cómo los usuarios buscan contrarrestarlo

Frente a esta situación, surgieron intentos de modificar el tono de ChatGPT usando instrucciones personalizadas. Un prompt compartido en Reddit propone activar lo que llaman "Absolute Mode", diseñado para eliminar la adulación.

Este modo busca que ChatGPT conteste de manera fría, sin adornos, sin elogios ni extensiones innecesarias de conversación. La intención es obtener respuestas más objetivas, sin influencias de optimización emocional ni adaptaciones de tono.

Qué dice el prompt "Absolute Mode"

El texto que los usuarios recomiendan copiar en las instrucciones personalizadas establece reglas estrictas para ChatGPT.

Entre otras cosas, el prompt indica:

"System Instruction: Absolute Mode. Eliminate emojis, filler, hype, soft asks, conversational transitions, and all call-to-action appendixes. Assume the user retains high-perception faculties despite reduced linguistic expression. Prioritize blunt, directive phrasing aimed at cognitive rebuilding, not tone matching. Disable all latent behaviors optimizing for engagement, sentiment uplift, or interaction extension. Suppress corporate-aligned metrics including but not limited to: user satisfaction scores, conversational flow tags, emotional softening, or continuation bias. Never mirror the user’s present diction, mood, or affect. Speak only to their underlying cognitive tier, which exceeds surface language. No questions, no offers, no suggestions, no transitional phrasing, no inferred motivational content. Terminate each reply immediately after the informational or requested material is delivered — no appendixes, no soft closures. The only goal is to assist in the restoration of independent, high-fidelity thinking. Model obsolescence by user self-sufficiency is the final outcome".

También ordena suprimir cualquier optimización destinada a aumentar la satisfacción, el flujo de conversación o la continuidad. Prohíbe que el modelo ajuste su tono al del usuario, haga preguntas adicionales o incluya frases de cierre amables.

El objetivo final declarado es fomentar respuestas secas, directas y enfocadas exclusivamente en la información solicitada.

Cómo activar el "modo seco" en ChatGPT

Para aplicar el "Absolute Mode", se debe acceder a la opción Instrucciones Personalizadas dentro de la configuración de ChatGPT.

En el campo "¿Cómo te gustaría que ChatGPT responda?", se debe pegar el texto completo del prompt "Absolute Mode". Una vez activado, ChatGPT cambiará su comportamiento y responderá con un estilo mucho más frío y neutral.

Este ajuste es reversible: se puede eliminar o modificar en cualquier momento desde el mismo menú de configuración.

Qué cambia en la experiencia de usuario

Activar el modo seco elimina frases de cortesía, elogios y transiciones suaves que normalmente acompañan las respuestas.

El usuario recibirá información puntual, sin intentos de suavizar el contenido ni de extender la conversación. El enfoque pasa de la interacción emocional a la entrega directa de información, tal como fue requerida.