Amazon presenta BASE TTS, el modelo de conversión de texto a voz más grande hasta la fecha

Amazon presentó el modelo de conversión de texto a voz denominado Big Adaptative Streamable TTS (BASE TTS), el "más grande hasta la fecha" de su estilo, que fue entrenado con hasta 100.000 horas de audio de dominio público para obtener capacidades de habla más realistas.

La compañía tecnológica investigó formas de mejorar las capacidades de los modelos de conversión de texto a voz, de cara a obtener resultados de audio más realistas y naturales, capaces de imitar cuestiones más complejas en el habla, como las emociones, las frases complejas, las palabras extranjeras o la interpretación de los signos de puntuación.

En este marco, Amazon presentó BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha", que ha sido entrenado con 100.000 horas de datos de voz de dominio público y 980 millones parámetros en su variante más avanzada, para mejorar su capacidad para pronunciar palabras y oraciones de forma natural, incluso con una entonación compleja.

Más noticias

Misiones busca profundizar la cooperación con Israel en tecnología, innovación y producción

En concreto, tal y como explicó la compañía en un comunicado, se trata de un modelo que utiliza un transformador de prácticamente mil millones de parámetros que convierte textos sin formato en códigos de voz, que ha combinado con un decodificador que convierte códigos de voz en formas de onda. Como resultado, BASE TTS funciona con una arquitectura "simplificada y altamente eficiente" que, según Amazon, se completa con una "novedosa" técnica de tokenización de voz.

Para encontrar una forma de obtener resultados de voz más realistas, los investigadores de Amazon han tomado como ejemplo las "habilidades emergentes" que ofrecen los grandes modelos de lenguaje (LLM) cuando se entrenan con un volumen cada vez mayor de datos, que comienzan a mostrar comportamientos de aprendizaje y resultados mejores exponencialmente.

En este sentido, los investigadores trasladaron esta idea a los modelos de conversión de texto a voz para conseguir un resultado de voz más natural y comprobar cómo evoluciona el comportamiento del modelo, en base al entrenamiento recibido. Para ello, desde Amazon han entrenado BASE TTS con varias variantes.

Tal y como detalló la compañía en un artículo sobre el estudio, se ha probado con una variante de BASE TTS pequeña, entrenada con 1.000 horas de datos de audio y 150 millones de parámetros; una variante median, con 10.000 horas de audio de entrenamiento y 400 millones de parámetros; y la variante más grande, con 100.000 horas de entrenamiento de audio y 980 millones de parámetros.

Concretamente, los datos de audio utilizados para el entrenamiento incluían un 90 por ciento de audio en inglés. Igualmente, también se han incluido datos en alemán, holandés y español.

En este marco, los investigadores comprobaron que a partir de la variante mediana del modelo, se comenzó a mostrar una comprensión más avanzada de los textos y una pronunciación y fonética "contextualmente apropiada".

Con todo ello, el modelo BASE TTS es capaz de ofrecer mejores resultados gracias a las "habilidades emergentes" que proporciona el entrenamiento de datos. En concreto, muestra mejoras en frases con sustantivos compuestos, que muestren emociones o que utilicen palabras extranjeras.

Tal y como ha detallado Amazon, el modelo también es capaz de reproducir palabras paralingüísticas -es decir, sonidos-, interpretar de forma correcta los elementos de puntuación, incluidas las preguntas y otras complejidades sintácticas.

Con información de Europa Press

Suscríbete ahora a El Observador y elegí hasta donde llegar.

Siguenos en:

Amazon presenta BASE TTS, el modelo de conversión de texto a voz "más grande hasta la fecha"

Misiones busca profundizar la cooperación con Israel en tecnología, innovación y producción

Las más leídas

"Desde afuera es fácil opinar": el mensaje de la pareja de uno de los jugadores de la selección uruguaya en el Mundial 2026 que valora "a quienes sienten esta camiseta"

Tabla de mejores terceros del Mundial 2026; mirá cómo está la clasificación que brinda cupos para 16avos de final

Devolución IRPF por alquileres: quiénes pueden recuperar parte de lo pagado en 2025 y qué requisitos exige DGI

Diputado del Frente Amplio pidió disculpas a Larrañaga Vidal por llamarlo "hijo de fracasado"

Mas noticias de Nacional

Ante el invierno, Uruguay recurre a energía de Brasil para cuidar reservas de gasoil y agua

Ignacio Munyo: "La competitividad es el gran problema que Uruguay debe resolver"

Prácticos portuarios: gobierno quiere generar libertad de elección en un sistema de poca competencia

Proyecto de ley propone nuevas reglas para proteger a compradores de inmuebles en construcción

Te Puede Interesar

Defensa de adolescente abatido en el Borro dice que las cámaras corporales contradicen la versión del policía

Conexión Ganadera: acuerdo superó 90% de adhesiones por lo que se garantiza pago anticipado a damnificados por venta de ganado

"No es un tema de imagen": Orsi respondió a Castillo por uso de vehículos del Ejército para patrullaje

El presidente chileno José Antonio Kast visitará Uruguay la próxima semana: los detalles de la agenda

Más noticias de Argentina

IMPSA avanza con Venezuela para rehabilitar centrales hidroeléctricas y sumar 672 MW al sistema eléctrico

El best-seller de Mark Haddon llegó a teatro Maipo: la propuesta de "El curioso incidente del perro a medianoche"

Los aumentos de julio 2026: colectivos, subte, tren, peajes, luz, agua, gas y alquileres

La nueva geografía del litio: cómo el NOA construye una red integrada de valor

Más noticias de España

Trump arremete contra Irán y amenaza con dar de baja la negociación por el control del Estrecho de Ormuz

España busca superar los 100 millones de visitantes en 2026 y Madrid se consolida en el turista de Latinoamérica

Máxima tensión en Taiwán: autoridades denuncian el despliegue de buques y aviones de la Fuerza Armada china

Elisa Mouliaá declara ante el juez por Errejón: "Es un castigo a la víctima por haber denunciado a un poderoso"

Más noticias de Estados Unidos

Perú: Sánchez denuncia un "fraude en desarrollo" y anuncia que no reconocerá un eventual triunfo de Keiko Fujimori

El gigante tecnológico Oracle elimina 21.000 empleos al apostar por la IA

EEUU suaviza las restricciones de viaje a la selección de Irán para el próximo partido del Mundial

Las prioridades de Abelardo De la Espriella, un Congreso desafiante y quién ocupará el Ministerio de Finanzas

Siguenos en: