Por María Victoria Flangini, licenciada en Comunicación de la Universidad de Montevideo.
Alejo Paullier, Ingeniero Industrial de la Facultad de Ingeniería de la Universidad de Montevideo (FIUM), ganó una medalla de oro en una competencia de Kaggle, la plataforma global líder en ciencia de datos, inteligencia artificial y machine learning
La competencia consistía en desarrollar un modelo de machine learningpara predecir qué tan probable una lesión cutánea (foto de un lunar) era benigna o maligna, basándose en la imagen de la lesión y metadatos del paciente. Por ejemplo, la edad y sexo, posición de la lesión en su cuerpo, color, forma, etc. Esta competencia integró tanto datos tabulares como imágenes.
Para analizar estos datos, Alejo y su equipo utilizaron los algoritmos de machine learning de modelos tabulares y un modelo de imágenes. Un modelo tabular trabaja con datos estructurados en formato de tablas, como bases de datos o hojas de cálculo, y procesa estos datos para hacer predicciones sobre una variable objetivo. Los modelos tabulares que usaron fueron XGBoost, Catboost y LightGBM, los cuales están basados en boosting de árboles de decisión, una técnica de ensamblado de modelos. Esto les permitió tener más precisión a la hora de analizar la gran cantidad de datos. Paralelamente, para el análisis de las imágenes usaron un modelo que procesan matrices de píxeles que representan las imágenes, utilizando redes neuronales convolucionales y otras arquitecturas especializadas. Para ello, usaron modelos de Deep Learning de redes neuronales convolucionales (CNNs), para procesar datos de las imágenes.
Alejo trabajó con un equipo internacional compuesto por Masakazu Sato (Japón), Stefano Claes (Bélgica), YiyangYu (China) y Zuixi Zhu (China). “Me copa trabajar con gente de otros países. Uno aprende un montón de otras personas, metodologías, culturas y nuevas técnicas”, subraya Alejo. A través de un grupo en Discord, tiene contacto con otros Kagglers de distintas partes del mundo donde discuten diversos enfoques, se dividen tareas y cómo unir códigos.
El principal desafío fue el desequilibrio de los datos: de 400.000 casos, solo 393 eran malignos. Esto era un problema porque no hay suficiente información como para aprender un patrón claro de lo que hace que una lesión sea maligna. Además, la combinación óptima de los modelos de imágenes con los tabulares representó un reto debido a las diferencias en la estructura y representación de los datos. Otro obstáculo significativo fue ver cómo validar los resultados porque al haber pacientes de diversos hospitales del mundo y con distintas cantidades de lesiones cutáneas era difícil que el modelo prediga bien datos nuevos. El equipo distribuyó los datos para entrenar y validar tanto los datos tabulares como las imágenes para que contemplen las regiones, los pacientes, la cantidad de lesiones y el ratio de benignas/malignas en las mismas proporciones.
Las competencias de Kaggle imponen límites de tiempo de cómputo (tiempo en que demora en ejecutarse el código) de entre nueve a doce horas lo que exige que las soluciones sean eficientes y rápidas. Esto es porque muchas veces las soluciones ganadoras terminan aplicándose en situaciones reales y deben ejecutarse en tiempos razonables. El proceso de trabajar con 400.000 imágenes de lunares y datos del paciente fue otro desafío porque tenían que ver cómo combinar la mayor cantidad de modelos posibles sin excederse del tiempo de computo que le habían puesto como límite.
Sobre cómo se preparó para esta competencia, Alejo ha aprendido de manera autodidacta en internet, en Kaggle y en sus experiencias profesionales. En 2018 se fue de intercambio a la Rijksuniversiteit en Groningen, Holanda a estudiar Data Science y desde 2022 participa activamente en competencias, lo cual lo hizo ganar experiencia y habilidades en distintas áreas de IA. También, su experiencia como profesor de Introducción a la Ciencia de Datos, en la Licenciatura en Ciencia de Datos para Negocios, le permitió fortalecer sus conocimientos para poder explicárselos a los alumnos. “Uno aprende también a los golpes. He estado cerca del oro en otras ocasiones y por errores que uno comete o enfocarse en algo no tan importante, después termina muy abajo en el tablero de la competencia”, reflexiona Alejo.
Para enfrentar la competencia global, tuvo que aprender nuevas herramientas y técnicas para adaptarse al desafío. Hay competidores que trabajan en grandes compañías a nivel mundial que tienen acceso a mejores hardware con modelos más avanzados y eficientes para competir. “A veces, es como correr en un Fiat contra alguien que tiene un Ferrari. Si uno no tiene el tiempo o los recursos, lo mejor que puede hacer es innovar en los conocimientos”, señala.
“Para mí, este resultado fue sentirme, un poco más, auto-realizado”, destaca Alejo. Cuando estaba en Holanda, en su primera clase de Data Science, la profesora dijo que existía una plataforma que se llamaba Kaggle, donde los top datascientists de todo el mundo competían para resolver problemas del mundo real de la mejor manera posible. “Desde esa primera clase, me puse el objetivo de ganar en una competencia porque era algo extremadamente difícil. Intenté años, perdí muchísimas veces y aprendí en el camino. A veces, uno compite por meses, metiendo horas después del trabajo o en los fines de semana, y es desmotivante en el último día caer cientos de puestos en el tablero. Pero, finalmente logré uno de mis objetivos. Voy a seguir compitiendo como vengo haciendo hace años porque me apasiona, uno aprende y además se mantiene actualizado”, analiza.
Alejo recomienda esta experiencia a otros profesionales y estudiantes porque destaca que Kaggle permite enfrentarse a problemas reales y muy desafiantes. Para él, la experiencia práctica es clave para el aprendizaje. “En mi materia suelo contarles una frase que dice: Me lo contaron y lo olvidé, lo vi y lo entendí, lo hice y aprendí”, destaca. “Muchas veces uno tiene una noción teórica de algo, pero hasta que no se embarra las manos o se equivoca una y mil veces hasta que sale, uno no termina aprendiendo”, concluye.