En biotech, lo gratis se paga con datos

Los gigantes de la inteligencia artficial ofrecen sus modelos "gratis", pero en biotech el precio real está directamente relacionado con los datos que obtienen.

Por Rosario "Charo" Cestau

Bióloga especializada en genética egresada de la UDELAR y MBA de Boston University

La inteligencia artificial y el impacto en biotech.

Hace años, cuando aún vivía en Boston, iba cada viernes al happy hour de mi laboratorio, uno de los pioneros en biotecnología mundial. Con la excusa de la pizza y la cerveza de barril gratis, muchos empleados, algunos de estrategia corporativa, como yo, pero la mayoría científicos de todos los palos, desde cristalógrafos hasta bioinformáticos, terminábamos ahí la semana laboral. A todos nos motivaba el reencuentro distendido y el intercambio: ponernos al día, conversar, compartir datos. Era obvio que de esos happy hours, casi gratis, surgían grandes ideas. Ese intercambio era uno de los verdaderos motores de la innovación.

Ahora, en la era de la inteligencia artificial, las cosas no han cambiado, ¿o sí? Para empezar, los happy hours en el propio laboratorio han sido eliminados por consejo de los abogados: ¿qué pasa si alguien se tropieza y le echa la culpa a la compañía por haberle servido alcohol? Pero no es solo eso: la IA gratis, al menos la que se usa específicamente para biotech, tampoco lo es.

Pero antes, conviene entender para qué sirven estas herramientas. Nuestro genoma contiene instrucciones para fabricar proteínas, máquinas diminutas que ejecutan casi todo lo que ocurre en una célula. Apenas producidas, las proteínas se pliegan adoptando una estructura tridimensional que es clave para definir su función: para la hemoglobina, transportar oxígeno en la sangre, y en el caso del colágeno, proveer de sostén, elasticidad y resistencia en la piel y otros órganos. Sin embargo, errores en estos plegamientos pueden ser causa de enfermedades tales como Alzheimer o fibrosis quística, y entender cómo minimizarlos es una importante estrategia terapéutica. Durante décadas, determinar esa estructura proteica en 3D tomaba un año o más de trabajo de laboratorio, caro y minucioso. La inteligencia artificial cambió eso: hoy predice esas estructuras en minutos. Esa capacidad, que antes no tenía precio porque no existía, es justamente la que ahora se ofrece como gratis, y ahí empieza la historia.

Empecemos con el caso de Google, cuyos científicos Demis Hassabis y John Jumper recibieron el Nobel de Química 2024 por AlphaFold, como vimos en una columna anterior. Sus primeros modelos, el 1 y el 2, eran gratis. Pero el más reciente, AlphaFold 3, ya no lo es, al menos, no del todo. Puede usarse para analizar estructuras de proteínas, pero sin fines comerciales. O sea, el precio es quedar encerrado en la plataforma, sin poder extraer los resultados y explotarlos comercialmente, que es justo lo que una empresa de biotecnología necesita para su viabilidad comercial.

Por otro lado, el MIT (Instituto de Tecnología de Massachusetts) dio origen a una pequeña compañía, un spin-out llamado Boltz, hoy con base en Londres y con apenas unas decenas de personas. Lo lideran tres investigadores y su principal inversor es Amplify Partners, un fondo que cree que el viejo modelo de pagar por el desarrollo físico de un medicamento ya no funciona. Boltz ofrece código abierto y mejoras en el poder predictivo para proteínas, y permite además su uso comercial, pero en su versión general. Quienes quieran aplicarlo a sus propios datos deberán pagar y obtener una versión tuneada y adaptada para su uso específico. Pfizer y Takeda, dos importantes laboratorios multinacionales con presencia en LATAM, hicieron exactamente eso, y están entre los primeros clientes de Boltz.

Un tercer esquema es el de Eli Lilly, el laboratorio estadounidense que disrumpió el tratamiento de la diabetes hace casi 50 años, en otra apuesta innovadora. Su TuneLab, lanzado hace menos de un año, propone a las compañías biotecnológicas que cumplan ciertos criterios, como ya estar avanzadas en estudios preclínicos, usar su modelo gratis. Eso sí, a cambio entregan algo. El TuneLab funciona de forma federada: la data cruda permanece en las biotech asociadas, pero los flujos de aprendizaje vuelven a Lilly. Lo que regresa a Lilly no son tus moléculas, es lo que el modelo aprendió de ellas, y así, semana a semana, Lilly mejora su modelo con el trabajo de otros científicos. Otra sutileza del esquema: para sortear las preocupaciones por la confidencialidad de los datos, TuneLab se apoya en tecnología de cómputo federado de NVIDIA, otro de sus socios estratégicos, un sistema donde los datos se procesan sin salir de cada empresa.

Como vemos, hay todo un menú de colaboraciones bajo el paraguas de “gratis”. Pero al final del día, la moneda no es el peso ni el dólar: es dato, puro y duro.

En este contexto, los que no tienen tiempo para generar el dato, lo compran. La semana pasada, Merck cerró un acuerdo que puede alcanzar los 510 millones de dólares por acceso a los datos que genera la plataforma Prot-MaP™. Esta permite un análisis masivo de proteínas con fines terapéuticos caracterizando millones de variantes por corrida. Detrás está Protillion Biosciences, un spin-out de la Universidad de Stanford, de no más de cincuenta personas, que produce datos y los vende. Si esos datos derivan en un candidato a medicamento, Merck paga en contante y sonante, y a medida que el producto avanza hacia el mercado, los hitos financieros son cada vez mayores. Esta cifra puede llegar a superar, si se cumplen todos los hitos, los 400 millones de dólares que pagó Anthropic por otra biotech, Coefficient Bio. Una vez más, vemos cómo compañías diminutas logran atraer cientos de millones de dólares por su valor intangible. El modelo importa, pero su valor intrínseco es residual sin el dato que lo nutre.

¿Qué se desprende de todo esto? Que el dato es la verdadera moneda: si no se comparte, hay que pagarlo, y si no, se entrega. Y conviene mirar de dónde viene ese dato. La mayoría del input a estos modelos nace en Estados Unidos y Europa. Como vimos con popEVE y AlphaGenome, los datos de LATAM todavía no están presentes. Ahí, justamente, puede estar nuestra gran oportunidad: en las áreas que quedan bajo el radar de los laboratorios del Norte.

No tenemos dudas en cuanto a la capacidad de generar datos de calidad en la región. En la Facultad de Ciencias de la UDELAR, el equipo de Genética Evolutiva que lideran los doctores Yanina Panzera y Ruben Pérez secuencia genomas virales y los comparte con el mundo en GenBank, el repositorio público de referencia. Sus secuencias, generadas en Montevideo, viajan a los bancos globales que el resto de la ciencia consulta. La materia prima existe y es nuestra, casi siempre obtenida con menos recursos financieros, pero ofrece una oportunidad estratégica a nivel global.

El economista Milton Friedman popularizó la frase “no existe tal cosa como un almuerzo gratis”. En aquel happy hour de Boston, la pizza no era gratis. La IA que hoy nos permite avanzar en innovación biotecnológica, tampoco. La diferencia es que esta vez, la moneda con que se paga, la tenemos nosotros.

Nota: la ilustración de esta columna fue generada con Claude Design (Anthropic). La investigación de fuentes y la verificación de datos contaron con el apoyo de herramientas de IA, bajo revisión y validación final de la autora.

Temas:

Biotech gratis datos innovación inteligencia artificial