¿Quién resuelve mejor las matemáticas? Las IAs de OpenAI y Google logran puntajes históricos

Por primera vez, modelos de IA compiten informalmente en las olimpíadas de matemáticas sin traducción humana, mostrando avances en razonamiento

Modelos de inteligencia artificial de OpenAI y Google DeepMind alcanzaron puntajes equivalentes a medalla de oro en la edición 2025 de la International Math Olympiad (IMO).

Ambas compañías aseguraron que sus sistemas resolvieron correctamente cinco de los seis problemas planteados en la prueba, un rendimiento superior al de la mayoría de los estudiantes participantes.

El logro representa un hito en la evolución de modelos de lenguaje capaces de razonar en dominios complejos, más allá de tareas automatizables o de respuestas cerradas.

Cambios en la forma de competir

En 2024, Google participó con un sistema "formal", que requería que los humanos tradujeran los problemas a un formato legible por máquina.

Este año, tanto Google como OpenAI usaron sistemas "informales" que comprendían directamente preguntas redactadas en lenguaje natural y generaban soluciones con justificaciones.

Ninguna traducción humana fue necesaria. Los modelos entendieron enunciados complejos y construyeron argumentos matemáticos por cuenta propia.

Razonamiento más allá de lo verificable

Los investigadores de ambas firmas destacaron que estos resultados reflejan avances en tareas de razonamiento no verificable, donde no existe una única respuesta válida.

Esto diferencia a los nuevos modelos de sistemas anteriores que solo destacaban en ejercicios con solución cerrada, como problemas de programación o cálculo básico.

La IMO se considera un entorno exigente, con preguntas abiertas que requieren demostraciones rigurosas, lo que la convierte en un banco de pruebas relevante para este tipo de IA.

Evaluaciones sin un árbitro único

OpenAI no participó oficialmente en la convocatoria de IMO. Según declaró uno de sus investigadores, la empresa fue contactada meses antes, pero optó por no integrarse al proceso formal.

En cambio, recurrió a evaluadores externos —tres exmedallistas olímpicos— para calificar las respuestas generadas por su sistema.

Tras obtener el resultado, OpenAI se comunicó con la organización del certamen, que le pidió esperar hasta el anuncio oficial de los resultados humanos.

Google apostó por el camino institucional

Google DeepMind anunció sus resultados dos días después, tras esperar a que se confirmara la premiación estudiantil y se completara la revisión oficial de IMO.

Uno de sus investigadores explicó que siguieron el proceso propuesto por los organizadores, quienes ya estaban en contacto con la compañía desde el año anterior.

Para Google, el uso del criterio oficial de corrección de IMO era clave para validar que los puntajes obtenidos fueran equivalentes a una medalla de oro.

Una carrera más pareja

Si bien OpenAI mantuvo durante años una ventaja técnica clara, los resultados en esta instancia sugieren que la competencia entre ambos actores se ha equilibrado.

La paridad en las puntuaciones refleja una convergencia en las capacidades de razonamiento de los modelos más avanzados del mercado.

A medida que estas empresas se preparan para futuros lanzamientos —como el esperado GPT-5—, las comparaciones de desempeño técnico se vuelven cada vez más relevantes.

Competencias como benchmark estratégico

La IMO se destaca como una referencia importante para las empresas de IA, dado que muchos de sus investigadores provienen de entornos de matemática competitiva.

En este contexto, lograr desempeños comparables a los mejores estudiantes del mundo contribuye a reforzar la reputación técnica de las compañías ante la comunidad.

Más allá de la polémica entre Google y OpenAI, los resultados refuerzan una señal: los modelos de IA están comenzando a competir de igual a igual con el razonamiento humano avanzado.