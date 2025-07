Nueva pestaña N° 45

ElevenLabs es considerado uno de los líderes más destacados en clonación de voz por IA a nivel mundial, gracias a su tecnología avanzada que ofrece resultados extremadamente realistas y está disponible al público.

Esta plataforma, que está valuada en US$ 3.300 millones, permite clonar voces con solo 10 segundos si se paga al menos US$ 5 al mes. Si pagás más de US$ 20, podés hacer clonaciones mucho más sofisticadas.

Es tan fácil hacerlo que asusta: luego de suscribirme, subí un archivo de audio de un minuto que le había enviado a un amigo (solo exige al menos 10 segundos). La plataforma recomienda que, para que sea más fiel a la voz real, se eviten entornos ruidosos, se compruebe la calidad del micrófono y se utilice un equipo consistente entre los distintos archivos (pero si subís uno solo, los resultados ya son increíbles).

El siguiente paso es ponerle nombre a la voz y definir el idioma (español), el acento (tuve que poner argentino, porque uruguayo no había), el género (hombre) y la edad (pide que sea joven, edad mediana o adulto mayor; elegí edad mediana).

Luego, le sumé una descripción, para la que le pedí ayuda a ChatGPT, y este fue el resultado:

"Voz masculina en español, tono natural y espontáneo, similar al estilo usado en audios de WhatsApp. Sonido cercano, conversacional, con matices cálidos y expresivos. Ideal para mensajes informales, contenido amigable y situaciones cotidianas. Transmite confianza, cercanía y energía positiva".

Finalmente, hay que aceptar los términos y condiciones, en los que el usuario asegura tener los derechos o consentimientos necesarios para subir y clonar las muestras de voz.

Llegó la hora de jugar

El experimento, que por supuesto tiene cero rigor científico, consistió en enviarles un audio a personas cercanas (familia, compañeros de trabajo y amigos) para evaluar si detectaban que el audio había sido generado por una IA o no.

¿Cómo los creaba? Simplemente escribía el texto y ajustaba algunos parámetros, que me parecen fundamentales que conozcas para advertir si te mandaron un audio hecho con IA:

Velocidad Ajusta qué tan rápido o lento suena la voz. Si ponés menos de 1.0 , va más despacio; si ponés más de 1.0 , va más rápido.

Estabilidad Hace que la voz suene siempre igual y estable, pero si lo subís mucho puede sonar un poco aburrida.

Similitud Mejora la claridad y hace que la voz se parezca más a la original, pero si se exagera puede generar ruidos o errores.

Exageración Sirve para que la voz suene con más personalidad o más “actuada”. Si se usa mucho, puede volverse inestable.

Speaker boost Aumenta la similitud con la voz original para que suene más parecida, pero tarda un poco más en generarse.

De las 15 personas a las que les mandé audios generados con IA, 8 no se dieron cuenta de que el audio era una inteligencia artificial.

Algunos disclaimers importantes: en todos los casos me esforcé en enviarles un contenido creíble para el contexto en el que nos relacionamos habitualmente. Por ejemplo, a mis hermanos les planteé una pregunta sobre el cumpleaños de mi sobrina, que se viene muy pronto.

Entre los que cayeron, a más de un compañero le pedí que pasara por mi escritorio porque le quería contar algo. Más de uno me visitó.

El 43% de quienes sí lo percibieron era, en general, gente que usa mucho inteligencia artificial y está habituada a estas herramientas.

Una de las que cayó en la trampa fue nuestra editora Member, Carolina Delisa, con este audio. A ella suelo enviarle los temas que presento en Nueva Pestaña para debatirlos. (Gracias, Caro).

Los resultados de este experimento me hacen pensar que, cuanto más se use la IA, y más entendamos cómo funcionan estas herramientas, más espíritu crítico vamos a poder tener sobre esos audios.

La locutora hecha con IA que nadie percibió en Australia

Durante varios meses en 2025, una emisora de radio en Sídney transmitió un programa conducido por una locutora generada por inteligencia artificial sin que los oyentes lo supieran. El caso fue revelado por The Australian Financial Review y The Sydney Morning Herald, y luego recogido por The Verge.

Su contenido musical era curado por humanos, pero la locutora virtual presentaba los temas como si fuera una persona real.

La voz estaba basada en una empleada del departamento financiero de la radio. La IA fue entrenada con su voz y apariencia, aunque ella no es locutora ni figura pública.

El caso salió a la luz tras algunas investigaciones periodísticas. Luego de conocerse, la radio anunció que seguirá transmitiendo el programa como parte de un experimento con herramientas de audio generadas por IA, aunque reconoció que el caso planteó preguntas sobre transparencia y ética.

Lo que sí es muy popular hoy en día son los casos de vishing, una combinación de las palabras voice (voz) y phishing. Se refiere a una forma de estafa telefónica en la que los delincuentes se hacen pasar por entidades confiables —como bancos, empresas o familiares— para engañar a las personas y obtener información personal, financiera o sensible.

Los científicos vienen describiendo esta imperceptibilidad. Un estudio publicado por Nature este año reveló que las personas no logran distinguir de forma consistente entre voces reales y voces generadas por inteligencia artificial.

Según el estudio, los participantes percibieron que las voces sintéticas coincidían en identidad con las reales, lo que evidencia el alto nivel de realismo alcanzado por esta tecnología.

Cómo evitarlo

Un experto me dijo una vez que va a llegar un momento en que vamos a tener que usar una palabra clave con nuestros seres queridos, como una especie de contraseña entre nosotros, para confirmar que realmente somos quienes decimos ser.

Con las voces clonadas por inteligencia artificial cada vez más realistas, ya no alcanza con reconocer un tono o una manera de hablar.

Por eso, además de la palabra clave, es fundamental verificar por otro canal: si te llega un audio raro o una llamada sospechosa, llamá directamente a esa persona o pedile una videollamada.

También conviene prestar atención a los detalles: las voces clonadas a veces suenan planas, tienen pausas extrañas o repiten frases.

Y nunca, pero nunca, compartas información sensible por voz sin confirmar antes.

Soy Juan Pablo De Marco, escribo de tecnología, y por cualquier comentario, inquietud o si tenés ganas de que hable sobre algún tema podés escribir a esta dirección.

