15 de julio 2025
Dólar
Compra 39,25 Venta 41,65
15 de febrero 2024 - 13:56hs

Amazon presentó el modelo de conversión de texto a voz denominado Big Adaptative Streamable TTS (BASE TTS), el "más grande hasta la fecha" de su estilo, que fue entrenado con hasta 100.000 horas de audio de dominio público para obtener capacidades de habla más realistas.

 

La compañía tecnológica investigó formas de mejorar las capacidades de los modelos de conversión de texto a voz, de cara a obtener resultados de audio más realistas y naturales, capaces de imitar cuestiones más complejas en el habla, como las emociones, las frases complejas, las palabras extranjeras o la interpretación de los signos de puntuación.

En este marco, Amazon presentó BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha", que ha sido entrenado con 100.000 horas de datos de voz de dominio público y 980 millones parámetros en su variante más avanzada, para mejorar su capacidad para pronunciar palabras y oraciones de forma natural, incluso con una entonación compleja.

Más noticias

En concreto, tal y como explicó la compañía en un comunicado, se trata de un modelo que utiliza un transformador de prácticamente mil millones de parámetros que convierte textos sin formato en códigos de voz, que ha combinado con un decodificador que convierte códigos de voz en formas de onda. Como resultado, BASE TTS funciona con una arquitectura "simplificada y altamente eficiente" que, según Amazon, se completa con una "novedosa" técnica de tokenización de voz.

Para encontrar una forma de obtener resultados de voz más realistas, los investigadores de Amazon han tomado como ejemplo las "habilidades emergentes" que ofrecen los grandes modelos de lenguaje (LLM) cuando se entrenan con un volumen cada vez mayor de datos, que comienzan a mostrar comportamientos de aprendizaje y resultados mejores exponencialmente.

En este sentido, los investigadores trasladaron esta idea a los modelos de conversión de texto a voz para conseguir un resultado de voz más natural y comprobar cómo evoluciona el comportamiento del modelo, en base al entrenamiento recibido. Para ello, desde Amazon han entrenado BASE TTS con varias variantes.

Tal y como detalló la compañía en un artículo sobre el estudio, se ha probado con una variante de BASE TTS pequeña, entrenada con 1.000 horas de datos de audio y 150 millones de parámetros; una variante median, con 10.000 horas de audio de entrenamiento y 400 millones de parámetros; y la variante más grande, con 100.000 horas de entrenamiento de audio y 980 millones de parámetros.

Concretamente, los datos de audio utilizados para el entrenamiento incluían un 90 por ciento de audio en inglés. Igualmente, también se han incluido datos en alemán, holandés y español.

En este marco, los investigadores comprobaron que a partir de la variante mediana del modelo, se comenzó a mostrar una comprensión más avanzada de los textos y una pronunciación y fonética "contextualmente apropiada".

Con todo ello, el modelo BASE TTS es capaz de ofrecer mejores resultados gracias a las "habilidades emergentes" que proporciona el entrenamiento de datos. En concreto, muestra mejoras en frases con sustantivos compuestos, que muestren emociones o que utilicen palabras extranjeras.

Tal y como ha detallado Amazon, el modelo también es capaz de reproducir palabras paralingüísticas -es decir, sonidos-, interpretar de forma correcta los elementos de puntuación, incluidas las preguntas y otras complejidades sintácticas.

Con información de Europa Press

Temas:

tecnología

Seguí leyendo

Las más leídas

El ex-presidente de Ancap, Alejandro Stipanicic.
Dólar en Uruguay
Ajustes de salarios y ley de Presupuesto: PIT-CNT define su primer paro en el gobierno de Orsi
DGI habilita líneas para realizar declaraciones juradas de IRPF e IASS

Te Puede Interesar

Gustavo Mosquito de Vitória ante Alan García de Cerro Largo por Copa Sudamericana
Alices Correa de Uruguay disputa el balón con Maria Bonsegundo y Yamila Rodríguez de Argentina por la Copa América femenina
Mauricio Affonso, Matías Mir y Facundo Bonifazi
Luis Suárez en el comienzo de la pretemporada 2025

Más noticias de Argentina

El best seller de 1985 que se propuso imaginar la Argentina del siglo XXI: en qué acertó, en qué falló y lo que no pudo ver
Malestar intergeneracional del kirchnerismo: inseguridad, desprotección y demandas de renovación política
La pobreza en Argentina bajaría al 31,6% en el primer semestre de 2025
Vialidad: así deberán abonar Cristina Kirchner y los condenados los 684.000 millones de pesos

Más noticias de España

EE.UU. fue el principal destino de las exportaciones de bebidas alcohólicas de la UE en 2024. Concentró un 30% de las ventas al exterior por un valor de 8.900 millones de euros. De ese monto, las exportaciones de vino representaron 4.900 millones de euros.
El primer ministro francés, François Bayrou. EFE
Javier Bardem (con gafas) y Nicholas Chavez.
España avisa: si cometiste este error no te darán la Nacionalidad por Ley de Nietos

Más noticias de Estados Unidos

3 efectos que pueden tener los aranceles que Trump impuso a los tomates mexicanos
Cómo es el controvertido balneario al estilo Benidorm en Corea del Norte que recibió el primer grupo de turistas rusos
Eduardo Bolsonaro pidió licencia como diputado para buscar apoyo internacional en EE.UU.
Cómo Trump me despertó para darme una entrevista por sorpresa y las conclusiones que saqué de nuestra conversación