De dónde salen los datos

Los smartphones son capaces de recopilar datos a partir de su uso; cómo es el complejo proceso de extracción

Cada uno de nosotros produce tsunamis de datos de forma voluntaria o involuntaria: cuando usamos el smartphone, al comprar por internet, cuando activamos algún dispositivo conectado y hasta cuando usamos el smart TV.

Tal es la proliferación de datos que, según cálculos de IBM, a diario se generan más de 43 millones de terabytes en todo el mundo y, para el año 2020, el universo digital alcanzará un tamaño de 44 zettabytes, lo que equivale a un video de alta definición con una duración de 1.600 millones de años.

Estos datos pueden ser un recurso excepcional porque les permite a las compañías conocer a los clientes con bastante precisión. De la misma manera, a nosotros también nos proporcionan información de interés; por ejemplo, quién nos dio "like" en Facebook, quién fue la última persona que miró nuestro perfil en LinkedIn, cuántos pasos damos a diario o cuánta agua estamos bebiendo si es que nos descargamos una aplicación móvil para este fin.

Como se ve, no solo Google, Amazon, Netflix y Facebook viven de los datos, sino que se dice que desaparecerá cualquier empresa que no los aproveche porque perderá competitividad, ya que no nos van a conocer tan a fondo como para hacernos propuestas personalizadas.

Por otra parte, detrás de las tecnologías del momento también están los datos: inteligencia artificial, aprendizaje automatizado de las máquinas, internet de las cosas... En todas ellas corren estos famosos datos pero, desde el momento en el que nosotros, los usuarios, los producimos, ¿dónde y cómo se almacenan? ¿Dónde y cómo son sometidos a cálculos en tiempo real para que las empresas detecten patrones y predicciones sobre nosotros y nuestros comportamientos?

A diario se generan más de 43 millones de terabytes en todo el mundo y, para el año 2020, el universo digital alcanzará un tamaño de 44 zettabytes, lo que equivale a un video de alta definición con una duración de 1.600 millones de años

Los centros de salud, los bancos, los colegios, los gobiernos, las compañías de consumo masivo, las firmas de transporte y hotelería y cualquier otra organización requieren de estos datos y de su correcto análisis. Por ejemplo, los comercios usan el Big Data para insertar publicidad de forma segmentada para llegar mejor al cliente, personalizar websites y tomar decisiones para llegar mejor a sus clientes; en el rubro energético, se aplica analítica de datos para saber en qué lugar, según las corrientes de los vientos, conviene colocar molinos; los bancos utilizan este recurso para detectar fraudes y procesar transacciones. De la misma manera, en el deporte se está utilizando para decidir el mejor precio a pagar por un nuevo futbolista o incluso para predecir posibles lesiones de jugadores y sus momentos más óptimos para el descanso.

Y nosotros mismos también estamos pendientes de nuestros propios datos, ya que somos una fuente de estos recursos: cuando a través de cualquier producto digital registramos las calorías que ingerimos, las pulsaciones que damos o buscamos información en la web.

Así es el viaje de los datos

"Del total de los datos existentes, solo el 20% está siendo analizado por las empresas", explicó Pierre Marchand, vicepresidente de sistemas hardware de IBM en Latinoamérica. Él detalló cómo se inicia el proceso de análisis: "Los datos están disponibles, pero la clave está en cuál es el propósito para el cual se lo quiere analizar".

Por ejemplo, Uber es una aplicación móvil que usa el dato de dónde está el vehículo para decirle al pasajero que el coche va a llegar en 5 minutos. El dato de "dónde está el auto" es relevante para su negocio; y así existen otros, entre ellos, cuán lejos está el destino y cómo está el tráfico.

Y mucho sale de nuestro propio smartphone. Este está compuesto por varios elementos que recolectan datos. Por ejemplo, las antenas o el GPS dan la ubicación del teléfono. Incluso, estas piezas saben si estamos en movimiento, hacia qué dirección nos movemos y a qué velocidad. La cámara, por su parte, etiqueta imágenes con coordenadas geográficas. Y muchos proveedores de aplicaciones móviles registran nuestra actividad, clics y ubicación con el fin de dirigir publicidad y ofertas. Pensemos en este ejemplo: en un centro comercial no es ni siquiera necesario conectarnos a una red de wifi; basta con que esté la opción activada en el teléfono. Una empresa puede detectarlo y, a partir de ahí, averiguar dónde vivimos, dónde trabajamos o qué lugares visitamos en la semana.

undefined undefined

Marcelo Morillas

Pero hay un sensor que es fundamental: el giroscopio. Este, que sirve para medir la velocidad angular, recolecta la información de cómo sujetamos el celular; si está vertical, horizontal o inclinado. En otras palabras, el dispositivo "comprende" los gestos y movimientos que se hacen sobre la pantalla o los botones que se activan durante su uso. El giroscopio transforma esta información en señales eléctricas y, a través de él, hasta se puede descubrir el código PIN al adivinar el número por la manera en que movemos y agarramos el celular.

Esto puede tener consecuencias en materia de seguridad. Un estudio reveló que 7 de cada 10 aplicaciones móviles comparten datos con empresas de seguimiento de terceros.

Kevin Mahaffey, director de tecnología de la empresa de Lookout, sostiene que la seguridad de los sensores de los smartphones debe ser una prioridad crítica en el futuro: un agujero de seguridad podría poner nuestros datos al alcance de cualquiera.

¿Nos están escuchando?

¿Y qué pasa con el micrófono? A pesar de las teorías conspirativas, nadie ha encontrado evidencia de que Facebook, Google o cualquier otra compañía tecnológica haya estado registrando datos de voz del usuario sin su consentimiento. Amazon y Google son razonablemente directos sobre el hecho de que los datos grabados por sus asistentes se guardan en línea, pero los usuarios pueden ver y eliminar estos datos. El escándalo de Cambridge Analytica –con la filtración de datos personales de más de 80 millones de cuentas de Facebook– nos brindó un vistazo a la pesadilla que engulliría a una empresa atrapada secretamente grabando y compartiendo información confidencial del usuario. Esto no excluye la posibilidad de que suceda, pero es un riesgo terriblemente grande de tomar solo para conseguir más datos de los usuarios. Ya repartimos gran parte de forma gratuita de todos modos.

Además, el procesamiento de datos de voz de un teléfono en particular es poco probable. Desde el punto de vista técnico, un artículo de Android Authority consigna que el aprendizaje automático a esta escala impondría un costo prohibitivo de almacenamiento para la red neuronal y las bases de datos de palabras claves actualizadas regularmente. A pesar de lo que algunos creen, la detección de palabras claves como "Hey Google" no es útil para el seguimiento de datos. Aumentar la cantidad de palabras claves a miles o más (que se necesitarían para cubrir el rango de posibles temas publicitarios) requiere mucha potencia de procesamiento. La batería se agotaría notablemente si su teléfono siempre escuchara miles de palabras posibles.

Además, la detección de palabras claves es inútil para proporcionar contexto. Un sistema de voz de búsqueda de publicidad de alta calidad tendría que examinar todas las conversaciones para seleccionar palabras claves y oraciones para luego ponerlas en contexto sobre productos, personas, lugares y varias otras categorías.

undefined undefined

Wikimedia Commons

Un ejemplo muy concreto

Ernesto Mislej, cofundador de 7Puentes, una empresa especializada en data science, machine learning, inteligencia artificial y web data extraction, explicó qué pasa en las empresas ante tantos datos desordenados: "Un proyecto de ciencia de datos es un proceso de adquisición de conocimiento, por lo que el valor se va construyendo de una manera poco precisa y no del todo eficiente. En ocasiones, sabemos que el valor en los datos existe, pero desconocemos cuál será la pregunta a la que ellos darán respuesta y, de darla, si el resultado será lo suficientemente certero como para incluir esa información en un proceso de toma de decisión". Por este motivo, hacerse las preguntas adecuadas y diseñar las hipótesis pertinentes están al mismo nivel que identificar las fuentes de datos y diseñar el flujo de procesamiento.

Qubit.tv es una compañía que provee video on demand en Argentina, Colombia, Ecuador, Paraguay y Uruguay. Para eso se basa en el análisis de los datos para dar recomendaciones de películas a los usuarios con la idea de que las personas que han visto películas en común en un pasado continuarán compartiendo gustos en el futuro. De ahí la frase "esta película le gusta a amigos similares a vos".

Para calcular esa noción de comunidad de usuarios de gustos afines se utilizan las vistas a películas que estos usuarios realizaron en un período de tiempo dado. Mislej especificó: "No tenemos una idea clara de qué significa 'ver una película'. Sí sabemos que el usuario le dio play, pero existen usuarios que la han visto completa y los que se aburrieron a los cinco minutos. Entonces tenemos que acordar qué significa la acción de 'ver una película', por ejemplo, si el usuario reprodujo el contenido hasta el 90% de su duración".

Luego, una vez calculadas las vecindades de usuarios que comparten gustos, la empresa recomienda a esos usuarios películas que sí vieron sus vecinos, pero que ellos aún no. A esta aproximación se la conoce como Sistemas de Recomendación basados en Similitud de Usuarios. Para realizar esta aproximación, el sistema necesita que muchos usuarios vean muchas películas. Pero, ¿qué pasa con las películas nuevas? Estas no fueron vistas por nadie. ¿Y qué pasa con los usuarios novatos que aún no vieron suficientes películas como para inducir sus gustos? "Este problema se lo conoce como cold start o encendido en frío", apuntó. Aquí se proponen tácticas como acercarle al usuario novato una serie de preguntas sobre su clasificación de películas clásicas. Otra forma sería suponer que si a un usuario le gustan las películas de superhéroes, un estreno de superhéroes sería de su agrado; pero para lograr eso se necesita acceder a la metadata de cada película, conocer género, sus actores, director, entre otra información", señaló Mislej.

Sin embargo, como esta plataforma también proporciona documentales, recitales, ciclos de comediantes, y charlas del tipo TED, la variable director no tiene sentido porque no todas las piezas tienen un director. "Como vemos, la tarea del desarrollo de un Sistema de Recomendación, no es solo la aplicación de una técnica algorítmica particular, sino la suma de numerosas decisiones que están en constante adaptación a entornos cambiantes", agregó el profesional de 7Puentes.

Como se evidencia, cuando recibimos publicidad de las marcas o recomendaciones de distintos servicios online, la marca que así lo desee está ante la posibilidad de conocernos tanto como nosotros mismos.

De dónde salen los datos

Madrid se consolida como el epicentro de la Inteligencia Artificial y los datos con inversiones millonarias

Madrid albergará en Alcobendas un campus de centros de datos con una inversión de 1.000 millones de euros

Así es el viaje de los datos

¿Nos están escuchando?

Un ejemplo muy concreto