¿Qué tanto entiende la inteligencia artificial lo que pasa en un video?

Enseñar a las máquinas a interpretar acciones podría tener varias aplicaciones prácticas

Tiempo de lectura: -'

08 de diciembre de 2017 a las 12:35

Estás por alcanzar el límite de notas.

Suscribite ahora a

Pasá de informarte a formar tu opinión.

Suscribite desde US$ 3 45 / mes

Esta es tu última nota gratuita.

Se parte de desde US$ 3 45 / mes

Actualmente, la capacidad de un ordenador de reconocer un objeto en una imagen fija es bastante impresionante. Pero la inteligencia artificial debe abordar aún un reto más complicado: entender una acción en una secuencia de video.

Esta semana, el Instituto Tecnológico de Massachusetts (MIT) e IBM publicaron un conjunto de datos de fragmentos de videos minuciosamente etiquetados con detalles de la acción representada.

"Si quieres entender por qué algo está sucediendo, el movimiento te proporciona mucha información que no puedes captar en un solo fotograma", señaló Aude Oliva, investigadora del MIT y una de las responsables del proyecto.

Una de las utilidades de la inteligencia artificial tiene que ver con su capacidad de reconocer los contenidos de imágenes estáticas, aprendiendo a través de redes neuronales profundas entrenadas con una enorme cantidad de datos. Los sistemas que actualmente interpretan contenido en video suelen basarse en identificar objetos en los fotogramas, en lugar de interpretar acciones.

El siguiente reto consiste en que las máquinas no sólo entiendan los elementos que aparecen en un video sino también qué está ocurriendo con ellos. Eso podría tener algunos beneficios prácticos, como dotar a los robots y coches autónomos de una mejor comprensión de lo que está pasando a su alrededor.

El proyecto MIT-IBM no es el único. Ya hay varias iniciativas similares que buscan estimular a las máquinas para que puedan comprender las acciones en el mundo físico. El año pasado, por ejemplo, Google lanzó un conjunto de ocho millones de videos de YouTube etiquetados llamados YouTube-8M. Por su parte, Facebook está desarrollando un conjunto de datos etiquetados llamado Scenes, Actions and Objects (escenas, acciones y objetos).

El investigador de IBM Danny Gutfreund explicó que esta tecnología podría tener varias aplicaciones prácticas. "Podría utilizarse para el cuidado de personas mayores, y para indicar si alguien se ha caído o si ha tomado su medicamento. También podrían integrarse en dispositivos de ayuda para las personas ciegas", expresó.


CONTENIDO EXCLUSIVO Member

Esta nota es exclusiva para suscriptores.

Accedé ahora y sin límites a toda la información.

¿Ya sos suscriptor?
iniciá sesión aquí

Alcanzaste el límite de notas gratuitas.

Accedé ahora y sin límites a toda la información.

Registrate gratis y seguí navegando.