ver más

OpenAI confirmó que ChatGPT escanea conversaciones en busca de señales de riesgo y puede derivarlas a revisión humana en ciertos casos.

Cuando detectan que un usuario planea dañar a otras personas, “dirigimos las conversaciones a canales de revisión especializados”, explicó la empresa.

Estas conversaciones son revisadas por un equipo interno “formado en nuestras políticas de uso y con autorización para actuar”, que puede tomar medidas como la suspensión de cuentas.

Si ese equipo determina que el caso representa “una amenaza inminente de causar daños físicos graves a otras personas”, OpenAI afirmó que “podemos remitirlo a las autoridades competentes”.

En cambio, en casos de autolesiones, OpenAI aseguró: “Actualmente no remitimos a las autoridades los casos de autolesiones, para respetar la privacidad de las personas dada la naturaleza especialmente privada de las interacciones”.

Estas acciones forman parte de un enfoque más amplio de seguridad, que incluye protección reforzada para menores de edad y en sesiones sin iniciar sesión.

Desde principios de 2023, los modelos están entrenados para “no proporcionar instrucciones de autolesión y para adoptar un lenguaje de apoyo y empático”.

Si alguien escribe que desea hacerse daño, ChatGPT debe “reconocer cómo se siente y dirigir a esa persona a buscar ayuda profesional”, evitando cualquier refuerzo del contenido riesgoso.

Además, cuando se detecta contenido que contradice esa formación en seguridad, “se bloquea automáticamente”, según OpenAI.

También se impide la generación de imágenes con contenido de autolesiones y, en conversaciones muy largas, “ChatGPT sugiere hacer una pausa”.

Mejoras con GPT5 y expansión de recursos de ayuda

En agosto de 2025, OpenAI lanzó GPT5 como modelo predeterminado en ChatGPT, destacando su capacidad para reducir errores críticos.

La empresa indicó que “GPT5 ha demostrado mejoras relevantes en ámbitos como evitar niveles poco saludables de dependencia emocional”, así como “disminuir en más de un 25 % la prevalencia de respuestas del modelo no deseables para emergencias de salud mental frente a GPT4o”.

El nuevo sistema incorpora un enfoque llamado “respuestas seguras”, que permite al modelo ofrecer respuestas útiles sin comprometer la seguridad.

Esto puede implicar respuestas parciales o generales, en lugar de detalles que puedan agravar situaciones delicadas.

OpenAI admitió que “nuestras medidas de protección funcionan con mayor fiabilidad en intercambios habituales y breves”, y que en sesiones prolongadas esas protecciones pueden debilitarse.

Por ejemplo, en algunos casos se detectó que el modelo “puede acabar ofreciendo una respuesta que contravenga nuestras medidas de protección” después de múltiples intercambios con un usuario.

Para corregirlo, la empresa afirmó que está “reforzando estas medidas para que sigan siendo fiables en conversaciones largas”.

También están ajustando los clasificadores que evalúan contenido sensible, ya que a veces “subestiman la gravedad de lo que detecta”, lo que permitió que pasaran mensajes que debieron ser bloqueados.

Entre los planes futuros, OpenAI anunció que “exploramos cómo intervenir antes y poner en contacto a las personas con terapeutas acreditados antes de que atraviesen una crisis aguda”.

Esto incluiría conectar con profesionales desde la plataforma, no solo a través de líneas de ayuda, y permitir “acceso con un solo clic a los servicios de emergencia”.

La empresa también evalúa la posibilidad de que, con consentimiento, ChatGPT pueda “contactar en su nombre con un contacto designado en casos graves”.

En el caso de adolescentes, OpenAI indicó que se están desarrollando “controles parentales que ofrezcan a las familias más visibilidad y opciones”, y que, con supervisión, los menores puedan “designar un contacto de emergencia de confianza”.

Para OpenAI, la prioridad es clara: “Evitar que ChatGPT agrave una situación delicada” y actuar de forma responsable en las interacciones más sensibles.

Temas:

OpenAI ChatGPT

Seguí leyendo