Anthropic construyó el modelo de inteligencia artificial más avanzado hasta el momento, y decidió que es demasiado peligroso para lanzarlo

Claude Mythos encontró en semanas fallas que llevaban décadas ocultas en el software más crítico del mundo. Nadie fuera del proyecto podrá usarlo.

Una empresa de inteligencia artificial construyó el modelo más capaz que existe para detectar vulnerabilidades en software y decidió no ponerlo a disposición del público. No porque no funcionara, sino exactamente por lo contrario: porque funciona demasiado bien. El martes 7 de abril, Anthropic anunció que su nuevo modelo de lenguaje, Claude Mythos Preview, identificó miles de fallas críticas de seguridad en todos los sistemas operativos y navegadores principales del mundo, incluyendo errores que llevaban décadas sin ser detectados. Al mismo tiempo, la compañía presentó el Proyecto Glasswing, una coalición de más de 40 empresas tecnológicas (entre ellas Apple, Google, Microsoft, Amazon, Nvidia y JPMorganChase) a las que se otorgó acceso exclusivo y controlado al modelo, con el único propósito de usar esas capacidades para la defensa, no para el ataque.

La decisión no tiene precedentes en la industria. Es la primera vez que un laboratorio de inteligencia artificial de frontera construye un modelo y anuncia públicamente que no lo va a lanzar porque lo considera demasiado peligroso. Y la pregunta que esa decisión deja flotando es tan técnica como política: ¿quién eligió a Anthropic para custodiar la seguridad digital del mundo?

El modelo que lo encontró todo

Claude Mythos Preview no fue diseñado específicamente para la ciberseguridad. Es un modelo de propósito general, entrenado para razonar y escribir código. Sus capacidades de detección de fallas emergieron como consecuencia no buscada de esas mejoras. "Las mismas mejoras que hacen al modelo más eficaz para parchear vulnerabilidades también lo hacen más eficaz para explotarlas", reconoció Anthropic en el blog de su equipo de seguridad.

El rendimiento fue tan elevado que los parámetros habituales de la industria dejaron de ser útiles para medirlo. En SWE-bench Verified, el indicador estándar para evaluar resolución de problemas de software, Mythos obtuvo 93,9%, contra 80,8% del modelo anterior de Anthropic, que hasta hace semanas era considerado el mejor del mercado. Ante esos números, el equipo decidió abandonar los tests de laboratorio y pasar directamente a pruebas en entornos reales.

Los resultados fueron de una escala difícil de dimensionar. En pocas semanas de trabajo autónomo, el modelo identificó miles de vulnerabilidades de día cero (fallas previamente desconocidas, sin parche disponible) en prácticamente toda la infraestructura de software global. Entre los casos que Anthropic pudo hacer públicos: una falla de 27 años en OpenBSD, sistema operativo utilizado para operar cortafuegos e infraestructura crítica; una vulnerabilidad de 17 años en FreeBSD que permitía tomar control total de un servidor desde cualquier punto de internet; y una falla de 16 años en FFmpeg, el programa de procesamiento de video más utilizado del mundo. El modelo también detectó problemas en el núcleo de Linux y en los principales navegadores web.

Anthropic aclaró que el 99% de esas vulnerabilidades todavía no fueron parcheadas, razón por la cual no pueden divulgar los detalles. Eso da una idea de la escala del problema que el modelo reveló, que ahora hay que resolver antes de que otros lleguen a las mismas conclusiones por su cuenta.

Una premisa incómoda

El Proyecto Glasswing parte de una lógica que sus propios impulsores reconocen como difícil de defender con comodidad: la única manera de proteger a la sociedad de un modelo de IA peligroso es haberlo construido primero, y usarlo para reparar el daño antes de que otros lleguen a la misma capacidad. Es, en términos más directos, la doctrina de la delantera preventiva aplicada a la inteligencia artificial.

"Dado el ritmo de avance de la IA, no pasará mucho tiempo antes de que estas capacidades se propaguen, posiblemente más allá de actores comprometidos con un uso seguro", escribió Anthropic en su comunicado. "Las consecuencias, económicas, de seguridad pública y de seguridad nacional, podrían ser graves".

rpbbfvq8_dario-amodei_625x300_24_February_26

Expertos en ciberseguridad consultados por distintos medios coincidieron en que la iniciativa es necesaria, aunque el margen de tiempo es estrecho. La estimación que circuló con más fuerza entre especialistas es que los modelos de código abierto, accesibles para cualquiera incluyendo actores maliciosos, podrían alcanzar capacidades similares en cuestión de meses. En ese escenario, cualquier organización criminal podría detectar y explotar vulnerabilidades críticas de forma automatizada, sin necesidad de los equipos de hackers especializados que hoy hacen falta para ese tipo de operaciones.

Thomas Friedman, en The New York Times, describió el anuncio como "un avance asombroso en inteligencia artificial, uno que llegó antes de lo esperado", y planteó una comparación con los tratados de no proliferación nuclear: frente a una herramienta con este potencial de daño, la coordinación internacional entre grandes potencias, incluso rivales, podría volverse inevitable.

Poder privado, regulación ausente

Más allá del debate técnico, el Proyecto Glasswing plantea una pregunta de gobernanza que ningún comunicado corporativo puede responder: una empresa privada, sin mandato democrático de ningún tipo, se encontró —de manera accidental o deliberada— convertida en custodio de las vulnerabilidades más sensibles de la infraestructura digital global. Una empresa privada ahora sabe cómo vulnerar casi todos los proyectos de software que cualquiera pueda imaginar. No es una acusación: es una descripción de lo que ocurrió. Y la descripción ya es suficientemente inquietante.

Algunos observadores señalaron también que el anuncio no es ajeno al momento financiero de la empresa. El mismo día del lanzamiento de Glasswing, Anthropic informó que alcanzó 30.000 millones de dólares en ingresos anualizados y cerró un acuerdo de infraestructura de cómputo con Google y Broadcom. La compañía evalúa además una oferta pública inicial para octubre de 2026. Una iniciativa de este perfil, con socios de primer nivel y un relato de responsabilidad corporativa sólido, es exactamente lo que fortalece esa narrativa ante inversores.

Anthropic comprometió hasta 100 millones de dólares en créditos de uso del modelo para las organizaciones del Proyecto Glasswing, más 4 millones de dólares en donaciones a proyectos de seguridad de código abierto. OpenAI, por su parte, trabaja en un modelo con capacidades similares que lanzará de manera restringida a través de su propio programa de acceso controlado para ciberseguridad, según fuentes citadas por Axios. La carrera no es solo tecnológica: es también por definir quién establece las reglas del juego en el nuevo escenario de la ciberseguridad impulsada por inteligencia artificial.

Nicholas Carlini, investigador del equipo de Anthropic, resumió con una sola frase lo que implicó trabajar con el modelo en las últimas semanas: "Encontré más bugs en las últimas dos semanas que en el resto de mi vida combinada". Si eso es una buena noticia o una mala depende, en gran medida, de quién tenga acceso a esa capacidad la próxima vez.

Anthropic construyó el modelo de inteligencia artificial más avanzado hasta el momento, y decidió que es demasiado peligroso para lanzarlo

La inteligencia artificial todavía no destruye empleos, pero sí les cierra la puerta a los jóvenes

Google destina 4,6 millones de dólares a la enseñanza de inteligencia artificial a jóvenes latinoamericanos

Anthropic superó a OpenAI en valor de mercado y se acerca al billón de dólares

El modelo que lo encontró todo

Una premisa incómoda

Poder privado, regulación ausente