Replicando las cuerdas vocales humanas a través de IA

A medida que las empresas de tecnología compiten por los modelos de Inteligencia Artificial (IA) más avanzados, Meta AI ingresa a la industria del software de audio a través de su última innovación en IA. 

El gigante tecnológico ha desarrollado la herramienta Voicebox, aplicando la generación de IA al muestreo de audio basado en humanos. Esta herramienta duplica los patrones del habla humana al crear audio con la misma voz que sus usuarios. Voicebox necesita una muestra de audio de 2 segundos de la voz de una persona para aprender su estilo. Asimismo, la plataforma puede traducir líneas de texto escrito en audio que se asemeje a la voz del usuario.

Meta AI ha desarrollado Voicebox utilizando grandes cantidades de datos para lograr esta diversidad vocal generada por IA. Su versión en inglés incluye 60 000 horas de entrada de datos y Meta AI ha incorporado 50 000 horas de datos en su modelo multilingüe. Esta amplia capacitación en datos otorga a Voicebox una ventaja competitiva sobre los generadores de voz alternativos de IA. En comparación con la plataforma VALL-E de Microsoft, Meta AI afirma que Voicebox muestra un mayor desarrollo «en términos de inteligibilidad (tasas de error de palabras del 5,9 % frente al 1,9 %) y similitud de audio (0,580 frente a 0,681)». Con respecto al procesamiento multilingüe, Meta AI explica que Voicebox reduce la «tasa de error de palabra promedio» de YourTTS en más del 50%.

Debido a su personificación de datos de audio, Voicebox ofrece una variedad de funciones, además de sus traducciones de audio basadas en texto. La plataforma permite la edición de video avanzada a través de una mayor consistencia; Voicebox puede replicar fragmentos de diálogos grabados con mala calidad de audio. Según la periodista de Hardware Larissa Ximenes, «Voicebox puede recrear una parte del discurso que ha sido interrumpida por el ruido, o reemplazar palabras mal pronunciadas, sin tener que volver a grabar un discurso completo».

Junto con su eficiencia de edición, Voicebox representa una innovadora herramienta multilingüe. La función de IA puede generar audio a partir de muestras de voz y texto escrito en seis idiomas: inglés, alemán, francés, español, polaco y portugués. Además, Voicebox puede crear medios de audio si la muestra y el texto se proporcionan en diferentes idiomas. Esto destaca su aplicabilidad al intercambio de idiomas, creando oportunidades para una comunicación más orgánica a través de las barreras idiomáticas.

Al integrar patrones verbales individuales y discursos distintivos en su software, Voicebox finalmente humaniza la generación de audio. Esto crea un mayor diálogo entre los medios y diferentes idiomas; sin embargo, Voicebox también representa una posible amenaza para la comunicación confiable. Por esta razón, Meta AI no ha lanzado Voicebox ni su código al público. La compañía explica que ha diseñado «un clasificador altamente efectivo que puede distinguir entre voz auténtica y audio generado con Voicebox para mitigar estos posibles riesgos futuros».

Finalmente, FUNIBER patrocina numerosos programas universitarios para aprender más sobre tecnología e inteligencia artificial. Algunos de estos programas son la Maestría en Dirección Estratégica en Ingeniería de Software y la especialización en Infraestructura Tecnológica de Software.

Fuentes: 

Voicebox é a nova ferramenta IA da Meta que recria a voz do usuário rapidamente

Voicebox: Generación de Voz Universal Multilingüe Guiada por Texto a Escala

Presentamos Voicebox: el primer modelo generativo IA para que el habla se generalice en todas las tareas con un rendimiento de última generación
Foto: Todos los derechos reservados.