Así funciona la cámara de tu celular, según un experto uruguayo

Por Universidad ORT - Especial para Cromo

Hoy, todos nos sentimos un poco más “fotógrafos profesionales” gracias a las cámaras de nuestros smartphones. Muchas veces nos sorprendemos a nosotros mismos con las imágenes que logramos capturar: “¡Mirá qué foto!”, comentamos orgullosos. Sin embargo, estas tomas fotográficas tienen detrás una ingeniería que desconocemos y que impresiona a cualquiera.

¿Qué sucede en nuestros smartphones cuando tomamos una foto? ¿Estamos tomando una única foto? ¿Cómo se construye la imagen que vemos en la pantalla de nuestro celular? ¿Qué rol cumple la inteligencia artificial en esos procesos?

Sobre estos y otros temas hablamos con el doctor Andrés Ferragut, docente de la Facultad de Ingeniería de ORT, para esta nota.

¿De qué forma toman fotos los smartphones de última generación?

Hoy, producto del sensor digital y la capacidad de cómputos que tienen los smartphones como el iPhone, en lugar de tomar una única toma de la imagen, se realizan varias tomas, con diferentes ajustes para combinarlas después en la imagen que vemos como producto final.

El iPhone, específicamente, tiene un proceso interno de revelado, que sería análogo al revelado tradicional, pero en lugar de tomar una única imagen, toma varias. Desde antes de apretar el botón de “tomar imagen”, el dispositivo ya está tomando registros.

Luego de apretar el botón de “tomar imagen”, el iPhone hace un revelado en el que combina todas las tomas que realizó en una sola imagen: la que vemos en la pantalla.

Para eso, se utiliza una gran capacidad de cómputos en el propio celular. Esto se logra mediante algoritmos de machine learning que han sido entrenados por Apple (en el caso de iPhone). Hoy, casi todos los fabricantes hacen esto, en mayor o menor medida.

¿Cómo es este proceso en comparación con la toma de fotos que realiza una cámara reflex?

Las cámaras tradicionales, ya sea de rollo o de sensor -las reflex profesionales, por ejemplo- tienen un visor por el que se enfoca y se prepara la imagen. Los ajustes de apertura, tiempo y sensibilidad se realizan antes de tomar la fotografía. Si bien hay cámaras modernas que toman más de una imagen, ¿lo común es que se tome una sola, que después se revela.

Básicamente, la mayor parte de los ajustes se definen antes de tomar la imagen. Después, se puede trabajar sobre el resultado. Históricamente, en la fase de revelado de la película se variaban los químicos para lograr mayores o menores contrastes, por ejemplo. Este procesamiento, luego, se digitalizó, pero la información es una: la que llegó al sensor.

Entonces, lo que cambia con las cámaras de los dispositivos celulares es que ya no tenemos una única imagen, sino que hay una combinación de varias imágenes. Por eso se logran cosas que pueden parecer increíbles y que no se podrían lograr con una única toma.

Deep Fusion es la “versión de procesamiento de imágenes neuronales de Apple”. ¿Cómo funciona?

Deep Fusion es el algoritmo de inteligencia artificial y basado en redes neuronales, que utiliza Apple. Estos algoritmos requieren muchos datos para ser entrenados y en eso juega la fotografía digital.

El hecho de que haya fotografía digital -que es mucho más económica en obtención y almacenamiento que la fotografía analógica- permite que dispongamos de millones de imágenes. Así, cuando cargamos imágenes en Google Fotos o espacios similares, estas sirven para entrenar algoritmos como Deep Fusion.

A partir de estas grandes bases de imágenes se han entrenado mecanismos de detección de personas, de mejoramiento de imagen o de contraste, por ejemplo. De esa forma, se entrena al algoritmo -en este caso Deeo Fusion- con múltiples imágenes hasta obtener el resultado deseado.

Ese algoritmo entrenado se carga en el sistema operativo del celular y, cada vez que uno "toma una foto", lo que hace el celular es hacer varias tomas, correr este algoritmo y presentar el resultado final.

El vicepresidente de Apple, Phil Schiller, definió Deep Fusion como la "ciencia loca de la fotografía computacional". ¿Qué significa esto?

Esto es porque lo que han hecho, básicamente, es “poner toda la carne en el asador” para desarrollar algoritmos y alcanzar resultados inimaginables que, quizás, podrían sustituir al revelado manual. Es decir, esa fase de estudiar la foto, ver qué zonas realzar y demás -que se puede hacer con programas de manejo de imágenes- de alguna forma es sustituido por un algoritmo que lo hace automáticamente.

La segmentación y la comprensión de cada segmento son clave en la toma de fotografías de iPhone. ¿Qué significa esto y cómo se determinan estos segmentos?

Hay que hacer una segmentación y una comprensión de cada segmento. Eso quiere decir que hay que determinar los componentes de la imagen. Eso se hace mediante un procedimiento de inteligencia artificial. Se entrena un algoritmo para detectar distintos componentes de una imagen.

Una de las cosas más desafiantes ha sido detectar qué cosas tiene una imagen. Cuando surgió la inteligencia artificial -en la década del '70- se pensó que sería algo fácil de resolver y, sin embargo, ha llevado muchos años de trabajo.

Hoy, se puede cargar una imagen en Google Fotos y Google puede determinar: "Esta foto tiene una botella", o "Esta foto tiene un tren" o, incluso, "Esta foto es de un cumpleaños". Es decir que trata de entender qué tipo de imagen es e incluso permite filtrar por tipo de imagen.

Todo eso se entrena a través de la información de millones de imágenes. Por ejemplo:se catalogan imágenes de cumpleaños como tales y se les da a las redes neuronales la posibilidad de encontrar cuáles son las coincidencias entre estas imágenes.

¿Se podría decir que las fotografías que tomamos con nuestros iPhone son en realidad construcciones?

La fotografía termina siendo una construcción que hace el dispositivo, a través de algoritmos que fueron entrenados en computadoras más potentes. Es sorprendente que la capacidad de cómputos que uno tiene en el bolsillo disponga de un revelador automático de fotos.

El efecto clásico que se toma como medida es el de desenfoque: los rostros aparecen enfocados y los demás no. Ese efecto tiene que ver con la profundidad de campo de la imagen. Normalmente, se lograba con un lente de alta apertura, que genera una estrecha profundidad de campo. Es difícil de lograr con una cámara tradicional.

Hoy, el efecto "se logra solo". Se detectan los rostros, se toman varias imágenes. De esas imágenes, se identifica cuál es la que tiene el rostro mejor enfocado y se desenfoca el resto. Así se genera una imagen de retrato, tan característica.

Estos efectos estaban al alcance únicamente de profesionales y ahora están al alcance de cualquier persona con un smartphone. Ya no tomamos fotografías con un clic, sino que estamos utilizando algoritmos entrenados y el poder de cómputos para que las fotografías queden mejor.

El desarrollo de la inteligencia artificial a nivel fotográfico en iPhone, ¿es el mismo que en otros dispositivos?

El iPhone ha hecho punta con esto. Han sido insistentes en que la cámara sea un factor distintivo, pero también es un factor de competencia. Es decir, todos los otros fabricantes están tratando de lograr las mejores cámaras y, hoy, las mejores cámaras ya no son las que tienen mejores lentes o sensores. Gran parte del partido se juega en el revelado. Todo esto es un área abierta de investigación en machine learning.

Nosotros, en ORT, trabajamos en esto. La gente del Diploma de Especialización en Analítica de Big Data y del Master en Big Data tiene equipos de investigación trabajando en nuevos algoritmos de inteligencia artificial, por ejemplo, para este tipo de cosas.

Suscríbete ahora a El Observador y elegí hasta donde llegar.

Siguenos en:

Así funciona la cámara de tu celular, según un experto uruguayo

Pasar fotos de un Galaxy a un iPhone va a ser mucho más fácil

Las más leídas

Bono social de UTE: quiénes pueden acceder a descuentos de hasta 90% en su factura de energía eléctrica

Apareció un roedor en un local de McDonald's en Punta del Este

Tragedia en Florida: cuatro personas murieron en un accidente de tránsito, entre ellas dos niños

La trasformación de Punta del Este: el balneario al que emigran como "ciudad de retiro" para todo el año

EO Clips

Mas noticias de Nacional

Dólar hoy: esta es la cotización del lunes 30 de marzo, según el BROU

Prex integra inversión a su billetera: el dinero genera rendimientos pero se puede usar en cualquier momento

Eólica offshore para hidrógeno verde: el llamado internacional que Ancap dejó en suspenso

Dragado de ANP en el puerto: informe concluye que se necesitan más funcionarios y modernizar embarcaciones

Te Puede Interesar

Tragedia en Florida: cuatro personas murieron en un accidente de tránsito, entre ellas dos niños

Amistoso Uruguay vs Argelia: día, hora, estadio y dónde verlo por cable, streaming y TV abierta

Uruguay vs Argelia: día, hora, estadio, probable equipo y donde ver el último partido de la selección de Marcelo Bielsa en Europa previo al Mundial 2026

Un trabajo de tres años y un final cerrado: la lista de 26 futbolistas de Marcelo Bielsa para el Mundial 2026

Más noticias de Argentina

El Gobierno inaugura una nueva fase del control de daños en torno a Manuel Adorni

Claudio Chiqui Tapia y Pablo Toviggino procesados: claves de una causa que amenaza a la cúpula del fútbol

Un juzgado laboral suspendió provisoriamente varios artículos clave de la ley de reforma laboral

'Doradas' en el Cervantes: Muscari reúne a cinco actrices icónicas en una obra sobre la fama y el tiempo

Más noticias de España

La Casa Blanca responde a España que no necesita su ayuda para la guerra de Irán

La OTAN interceptó un misil iraní en el espacio aéreo de Turquía, por cuarta vez en un mes

El FMI alerta que el conflicto de Irán supondrá precios más altos y menor crecimiento en todos los escenarios

Top salarios en España: los trabajos que alcanzan los 56.000 euros en un mercado con falta de talento

Más noticias de Estados Unidos

Qué medidas están tomando los gobiernos para aliviar el aumento de los precios de los combustibles en América Latina y el mundo

El rechazo de Irán a dialogar con EE.UU. refleja una profunda desconfianza en Trump

Sin guardias de honor ni insignias patrias: el día que vi a Nicolás Maduro y Cilia Flores vestidos de caqui en un tribunal de Nueva York

5 momentos del Azteca, el estadio de fútbol más emblemático de América Latina que se reinaugura para el Mundial

Siguenos en: