DeepSeek finalmente reveló los secretos detrás del modelo de inteligencia artificial que provocó un terremoto en Wall Street en enero pasado, cuando su lanzamiento hizo que Nvidia perdiera US$600.000 millones en capitalización bursátil en un solo día. Según un artículo publicado esta semana en la prestigiosa revista Nature, la empresa china logró desarrollar su revolucionario modelo R1 por apenas US$294.000, una cifra que ahora se conoce por primera vez y que contrasta dramáticamente con las inversiones millonarias de sus competidores estadounidenses.
El modelo R1, que superó el desempeño humano en competencias matemáticas de élite y alcanzó un 86,7% de precisión en el American Invitational Mathematics Examination (AIME) 2024, representa más que un avance técnico: es la confirmación de que China puede desarrollar IA de vanguardia con una fracción de los recursos que utilizan las gigantes tecnológicas de Silicon Valley.
La revelación llega ocho meses después del lanzamiento del modelo el 20 de enero, cuando DeepSeek se convirtió en la aplicación más descargada del mundo, superando a ChatGPT, y desató pánico en los mercados tecnológicos al demostrar que era posible lograr capacidades comparables a los modelos más avanzados sin las enormes inversiones que pregonaba la industria estadounidense.
La innovación científica detrás del hito
DeepSeek-R1 aprendió a razonar mediante una técnica conocida como aprendizaje por refuerzo, un enfoque radicalmente diferente al método tradicional de entrenar modelos de IA. En lugar de mostrar al modelo miles de ejemplos de cómo resolver problemas paso a paso, los investigadores chinos solo le dieron una señal simple: si la respuesta final era correcta o incorrecta.
"En lugar de enseñar explícitamente al modelo cómo resolver un problema, simplemente le proporcionamos los incentivos correctos y desarrolla de forma autónoma estrategias avanzadas de resolución de problemas", explicaron los investigadores en el paper de Nature, cuyo autor principal es Liang Wenfeng, fundador de DeepSeek.
Durante el entrenamiento, algo extraordinario sucedió: el modelo comenzó a desarrollar comportamientos sofisticados que nadie le había enseñado. Empezó a verificar su propio trabajo, explorar diferentes estrategias para encontrar soluciones y, en un momento que los investigadores denominaron "aha moment", comenzó a usar frecuentemente la palabra "wait" (esperar) durante sus reflexiones, marcando un cambio distintivo en sus patrones de razonamiento.
El proceso de auto-evolución del modelo fue notable. La longitud promedio de sus respuestas creció steadily durante el entrenamiento, pasando de respuestas cortas a elaboradas cadenas de razonamiento de cientos o miles de tokens. Esta extensión no fue programada, sino que emergió naturalmente como una estrategia para mejorar la precisión.
Los resultados fueron contundentes. En el AIME 2024, el modelo saltó de un 15,6% de precisión inicial a un 77,9% usando una sola respuesta, y alcanzó el 86,7% con técnicas de auto-consistencia. Este nivel supera significativamente el rendimiento promedio de estudiantes humanos en esta competencia matemática de élite.
DeepSeek-R120China%202131808007
El modelo también destacó en el Codeforces, una plataforma de competencias de programación, y en problemas de posgrado en biología, física y química, demostrando que sus capacidades de razonamiento trascienden las matemáticas puras.
El impacto económico del modelo
La eficiencia económica de DeepSeek-R1 representa un cambio de paradigma en el desarrollo de IA avanzada. Según el documento suplementario que acompaña la investigación en Nature, el modelo se entrenó durante 80 horas utilizando un clúster de 512 chips H800 de Nvidia, llegando al costo total de US$294.000.
Esta cifra incluye todos los gastos operativos del clúster de supercomputación durante el período de entrenamiento, una transparencia poco común en una industria donde las empresas raramente revelan sus costos reales de desarrollo.
La comparación con la competencia internacional es reveladora. Mientras que Sam Altman, el CEO de OpenAI, había sugerido costos superiores a US$100 millones para modelos similares, DeepSeek logró resultados comparables o superiores con menos del 0,3% de esa inversión. Esta eficiencia no solo democratiza el acceso a tecnología de IA avanzada, sino que redefine las barreras de entrada al mercado de modelos de lenguaje de gran escala.
El enfoque chino elimina costos significativos asociados con la anotación humana masiva, un proceso tradicionalmente laborioso y costoso que requiere expertos para crear miles de ejemplos de razonamiento paso a paso. Al prescindir de esta supervisión humana directa, DeepSeek reduce dramáticamente tanto los costos como los tiempos de desarrollo.
Esta eficiencia tiene implicaciones profundas para la democratización de la IA avanzada. Si modelos de capacidades frontera pueden desarrollarse con inversiones relativamente modestas, más actores podrían ingresar a la competencia, alterando la concentración actual del poder computacional en unas pocas empresas tecnológicas gigantes.
Las tensiones geopolíticas en torno a los chips
La revelación de los detalles técnicos de DeepSeek reavivó el debate sobre las restricciones estadounidenses a las exportaciones de tecnología a China. La empresa utilizó chips H800 de Nvidia, una versión específicamente diseñada para el mercado chino después de que Estados Unidos prohibiera en octubre de 2022 la exportación de sus chips de IA más potentes, los H100 y A100, a empresas chinas.
Sin embargo, el documento suplementario reveló por primera vez que DeepSeek sí posee chips A100 y los utilizó en las fases preparatorias del desarrollo. "En lo que respecta a nuestra investigación sobre DeepSeek-R1, utilizamos las GPU A100 para preparar los experimentos con un modelo más pequeño", reconocieron los investigadores.
Esta admisión genera nuevas preguntas sobre la efectividad de las sanciones tecnológicas. Funcionarios estadounidenses habían declarado a Reuters en junio que DeepSeek tenía acceso a "grandes volúmenes" de chips H100 adquiridos después de la implementación de los controles de exportación, algo que la empresa había negado hasta ahora.
La eficiencia demostrada por DeepSeek con hardware supuestamente menos potente plantea interrogantes sobre la estrategia de contención tecnológica. Si empresas chinas pueden lograr resultados de vanguardia con recursos limitados, las restricciones podrían impulsar la innovación en lugar de frenarla, creando un efecto contraproducente para los objetivos geopolíticos estadounidenses.