ver más

Tres cámaras cuidadosamente ajustadas registran desde varios ángulos gestos manuales y movimientos corporales. Una computadora con un potente procesador gráfico toma esas imágenes y va creando una biblioteca de gestos con la que se entrena a un programa para reconocer cuando una persona hable con la lengua de señas uruguaya. Así es el sistema instalado en el Cicea (Centro Interdisciplinario en Cognición para la Enseñanza y el Aprendizaje) de la Universidad de la República.

Leonardo Carreño

La meta es que un programa detecte las señas que registran las cámaras y las traduzca a órdenes o lengua escrita. Sin embargo, las aplicaciones exactas que se le podrían dar a este sistema cuando esté concluido no han sido definidas, según el magíster Ariel Stassi, quien está a cargo del proyecto. Aclara que cuando el software esté pronto se podría utilizar, por ejemplo, para que alguien mudo haga una o más señas ante la cámara y que el software lo convierta en audio. O también se puede usar para entrenar intérpretes de lengua de señas uruguaya a través de una eventual aplicación de celulares. “La meta es llegar a la traducción de imágenes y videos. Pero lo que queremos es arrancar y entender si lo que proponemos funciona, dando pasos firmes”.

El proyecto está en su fase inicial y solo ha tenido algunos sujetos de prueba, aunque se espera que en poco tiempo empiece a digitalizar gestos con continuidad para completar la base de datos que alimentará al sistema.

Leonardo Carreño

El reconocimiento automático es una rama de la inteligencia artificial que se enfoca en que un programa pueda identificar el contenido de una señal externa, ya sea una imagen o un sonido (por ejemplo, los comandos de voz del celular). “Por un lado está el trabajo en el reconocimiento automático y por otro el problema de que la lengua de señas es distinta en cada lugar –precisa Stassi–. Aunque haya sistemas en otras partes con objetivos similares, hay que aprender la lengua de acá”, agrega.

“Me interesa la ciencia, pero siempre enfocada en la inclusión. Y esto es parte de lo que se conoce como tecnologías asistenciales, que son las que expanden capacidades. Y por otro lado me interesaban los temas de la inteligencia artificial y las imágenes. En este caso, la idea es contribuir al desarrollo de herramientas para la comunidad sorda en sí misma y para mejorar su interacción con la sociedad de oyentes”, comenta.

Los países en los que se han realizado experiencias de referencia son Alemania, Estados Unidos y China más recientemente. Las primeras pruebas tienen unos 40 años y se centraban en el reconocimiento automático de comandos por voz. “La diferencia entre reconocer la voz y los elementos de una imagen es que el audio varía en el tiempo pero las imágenes y los gestos varían a la vez en el espacio y en el tiempo. Este hecho hace que los sistemas de reconocimiento sobre imágenes o video sean más complejos y requieran de procesadores más potentes”, explica.

Leonardo Carreño

La meta es que con tres cámaras se registre una cantidad suficiente de movimientos para entrenar un software que reconozca la lengua de señas uruguaya. Stassi explica que hasta ahora han utilizado lo que se llama aprendizaje por transferencia. Es decir que toman programas de reconocimiento que ya existen, en este caso Deep Hand y Open Pose, y los adaptan con los registros de la lengua de señas nacional, que no es igual a la argentina ni a la de otros países. “Hace es una suerte de traducción al asociar tal o cual postura y movimiento de las manos con un significado lingüístico”, indica.

Las tres cámaras en simultáneo enfocan los mismos gestos desde distintos ángulos para enseñarle a la computadora a reconocer las imágenes, clasificarlas y diferenciarlas. “Si le presento muchas imágenes de mucha gente haciendo señas, las mismas señas, la computadora aprenderá a ver cuáles son las características a las que tiene que atender para identificarlas, independientemente del señante”.

Da como referencia el dato de que un sistema así en otros países ha llegado a usar más de un millón de imágenes para alimentarse y aprender a decodificar señas. En el proyecto que se plantean en Uruguay no hay una cifra estimada de imágenes, ya que se determinará a medida que se vayan cumpliendo las etapas.

Leonardo Carreño

“Si el conjunto de datos es muy pequeño, se corre el riesgo de que el sistema se sobreentrene. Es decir, que se acostumbre a ciertas personas o maneras y que no pueda reconocer las señas de una persona desconocida. Cuantos más datos tengamos, el sistema estará más preparado para lidiar con la variabilidad natural de la lengua”.

Temas:

tecnología

Seguí leyendo