¿Qué tanto entiende la inteligencia artificial lo que pasa en un video?

Enseñar a las máquinas a interpretar acciones podría tener varias aplicaciones prácticas

Actualmente, la capacidad de un ordenador de reconocer un objeto en una imagen fija es bastante impresionante. Pero la inteligencia artificial debe abordar aún un reto más complicado: entender una acción en una secuencia de video.

Esta semana, el Instituto Tecnológico de Massachusetts (MIT) e IBM publicaron un conjunto de datos de fragmentos de videos minuciosamente etiquetados con detalles de la acción representada.

Una tecnológica enfocada en inteligencia artificial y valuada en 300.000 millones de dólares desembarca en Miami

Tecnología

Cómo conseguir un ascenso usando Inteligencia Artificial

COMUNICADO

Centro Ceibal Informa:

"Si quieres entender por qué algo está sucediendo, el movimiento te proporciona mucha información que no puedes captar en un solo fotograma", señaló Aude Oliva, investigadora del MIT y una de las responsables del proyecto.

Una de las utilidades de la inteligencia artificial tiene que ver con su capacidad de reconocer los contenidos de imágenes estáticas, aprendiendo a través de redes neuronales profundas entrenadas con una enorme cantidad de datos. Los sistemas que actualmente interpretan contenido en video suelen basarse en identificar objetos en los fotogramas, en lugar de interpretar acciones.

El siguiente reto consiste en que las máquinas no sólo entiendan los elementos que aparecen en un video sino también qué está ocurriendo con ellos. Eso podría tener algunos beneficios prácticos, como dotar a los robots y coches autónomos de una mejor comprensión de lo que está pasando a su alrededor.

El proyecto MIT-IBM no es el único. Ya hay varias iniciativas similares que buscan estimular a las máquinas para que puedan comprender las acciones en el mundo físico. El año pasado, por ejemplo, Google lanzó un conjunto de ocho millones de videos de YouTube etiquetados llamados YouTube-8M. Por su parte, Facebook está desarrollando un conjunto de datos etiquetados llamado Scenes, Actions and Objects (escenas, acciones y objetos).

El investigador de IBM Danny Gutfreund explicó que esta tecnología podría tener varias aplicaciones prácticas. "Podría utilizarse para el cuidado de personas mayores, y para indicar si alguien se ha caído o si ha tomado su medicamento. También podrían integrarse en dispositivos de ayuda para las personas ciegas", expresó.

Temas:

inteligencia artificial video aplicaciones Facebook Google MIT tecnología YouTube

Seguí leyendo