15 de febrero de 2024 13:56 hs

Amazon presentó el modelo de conversión de texto a voz denominado Big Adaptative Streamable TTS (BASE TTS), el "más grande hasta la fecha" de su estilo, que fue entrenado con hasta 100.000 horas de audio de dominio público para obtener capacidades de habla más realistas.

 

La compañía tecnológica investigó formas de mejorar las capacidades de los modelos de conversión de texto a voz, de cara a obtener resultados de audio más realistas y naturales, capaces de imitar cuestiones más complejas en el habla, como las emociones, las frases complejas, las palabras extranjeras o la interpretación de los signos de puntuación.

En este marco, Amazon presentó BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha", que ha sido entrenado con 100.000 horas de datos de voz de dominio público y 980 millones parámetros en su variante más avanzada, para mejorar su capacidad para pronunciar palabras y oraciones de forma natural, incluso con una entonación compleja.

Más noticias

En concreto, tal y como explicó la compañía en un comunicado, se trata de un modelo que utiliza un transformador de prácticamente mil millones de parámetros que convierte textos sin formato en códigos de voz, que ha combinado con un decodificador que convierte códigos de voz en formas de onda. Como resultado, BASE TTS funciona con una arquitectura "simplificada y altamente eficiente" que, según Amazon, se completa con una "novedosa" técnica de tokenización de voz.

Para encontrar una forma de obtener resultados de voz más realistas, los investigadores de Amazon han tomado como ejemplo las "habilidades emergentes" que ofrecen los grandes modelos de lenguaje (LLM) cuando se entrenan con un volumen cada vez mayor de datos, que comienzan a mostrar comportamientos de aprendizaje y resultados mejores exponencialmente.

En este sentido, los investigadores trasladaron esta idea a los modelos de conversión de texto a voz para conseguir un resultado de voz más natural y comprobar cómo evoluciona el comportamiento del modelo, en base al entrenamiento recibido. Para ello, desde Amazon han entrenado BASE TTS con varias variantes.

Tal y como detalló la compañía en un artículo sobre el estudio, se ha probado con una variante de BASE TTS pequeña, entrenada con 1.000 horas de datos de audio y 150 millones de parámetros; una variante median, con 10.000 horas de audio de entrenamiento y 400 millones de parámetros; y la variante más grande, con 100.000 horas de entrenamiento de audio y 980 millones de parámetros.

Concretamente, los datos de audio utilizados para el entrenamiento incluían un 90 por ciento de audio en inglés. Igualmente, también se han incluido datos en alemán, holandés y español.

En este marco, los investigadores comprobaron que a partir de la variante mediana del modelo, se comenzó a mostrar una comprensión más avanzada de los textos y una pronunciación y fonética "contextualmente apropiada".

Con todo ello, el modelo BASE TTS es capaz de ofrecer mejores resultados gracias a las "habilidades emergentes" que proporciona el entrenamiento de datos. En concreto, muestra mejoras en frases con sustantivos compuestos, que muestren emociones o que utilicen palabras extranjeras.

Tal y como ha detallado Amazon, el modelo también es capaz de reproducir palabras paralingüísticas -es decir, sonidos-, interpretar de forma correcta los elementos de puntuación, incluidas las preguntas y otras complejidades sintácticas.

Con información de Europa Press

Las más leídas

Temas

tecnología

Seguí leyendo
Uruguay mantiene su credibilidad macroeconómica, pero no logra acelerar la inversión
Dólar hoy
Proyecto de competitividad apunta a reforzar el control de mercados y concentraciones económicas
La economía uruguaya creció 0,8% en el primer trimestre del año

Te Puede Interesar

Allanamientos en Marconi
Facundo Pellistri, Emiliano Martínez y Joaquín Piquerez en el entrenamiento de la selección uruguaya
Se nos trata de imponer un barrio privado: vecinos de Canelones cuestionaron en el Parlamento proyecto de chacras en Laguna del Cisne
Cristina Lustemberg y Martín Lema

Más noticias de Argentina

SpaceX compró Cursor por 60.000 millones de dólares: la adquisición más grande en la historia de las herramientas de IA
El futuro de Adorni depende de los aliados: el peronismo apura una postura del PRO y la UCR
El Gobierno busca reaccionar a la situación de Manuel Adorni: reuniones suspendidas y presión para licencia.
Cuánto cobra una beneficiaria de la AUH ANSES en julio 2026

Más noticias de España

La presentación del circuito Madring. 
La actriz Elisa Mouliaá a la salida de los Juzgados de Plaza de Castilla.
El presidente estadounidense Donald Trump, el presidente francés Emmanuel Macron y el presidente ucraniano Volodymyr Zelensky durante una sesión de trabajo en la cumbre del G7 en Evian-les-Bains, Francia.
El impacto de este Mundial en la economía de los países anfitriones será apenas perceptible. Será más visible en México y sólo supondrá un 0,13% del PBI.

Más noticias de Estados Unidos

Advertencia a Israel y amenaza de sanciones a Rusia, las señales de Trump que agitan la cumbre del G7
Gavin Newsom y su esposa, Jennifer Siebel
Hubs, IA, exportación y talento: lo que dejó la Argentina Tech Week en Nueva York
Paris Hobbs dice tener "muchos sentimientos encontrados" por el Mundial.