Replicando cordas vocais humanas por meio de IA

À medida que as empresas de tecnologia competem pelos modelos mais avançados de Inteligência Artificial (IA), a Meta AI entra na indústria de software de áudio através da sua mais recente inovação em IA.
A gigante da tecnologia desenvolveu a ferramenta Voicebox, aplicando a geração de IA à amostragem de áudio baseada em humanos. Esta ferramenta duplica padrões de fala humana criando áudio com a mesma voz de seus usuários. O Voicebox precisa de uma amostra de áudio de 2 segundos da voz de uma pessoa para aprender seu estilo. Da mesma forma, a plataforma pode traduzir linhas de texto escrito em áudio que lembra a voz do usuário.

A Meta AI desenvolveu o Voicebox usando grandes quantidades de dados para alcançar essa diversidade vocal gerada pela IA. Sua versão em inglês inclui 60 mil horas de entrada de dados e a Meta AI incorporou 50 mil horas de dados em seu modelo multilíngue. Este extenso treinamento em dados dá ao Voicebox uma vantagem competitiva sobre geradores de voz de IA alternativos. Em comparação com a plataforma VALL-E da Microsoft, a Meta AI afirma que o Voicebox apresenta maior desenvolvimento “em termos de inteligibilidade (taxas de erro de palavras de 5,9% vs. 1,9%) e similaridade de áudio (0,580 vs. 0,681). Em relação ao processamento multilíngue, a Meta AI explica que o Voicebox reduz a “taxa média de erros de palavras” do YourTTS em mais de 50%.

Devido à sua incorporação de dados de áudio, o Voicebox oferece uma variedade de recursos além de suas traduções de áudio baseadas em texto. A plataforma permite edição avançada de vídeo através de maior consistência. O Voicebox pode replicar fragmentos de diálogos gravados com baixa qualidade de áudio. De acordo com a jornalista especializada em hardware Larissa Ximenes, “o Voicebox pode recriar uma parte do discurso que foi interrompida por ruído ou substituir palavras mal pronunciadas, sem ter que regravar um discurso inteiro”.

Junto com sua eficiência de edição, o Voicebox representa uma ferramenta multilíngue inovadora. O recurso de IA pode gerar áudio a partir de amostras de voz e texto escrito em seis idiomas: inglês, alemão, francês, espanhol, polonês e português. Além disso, o Voicebox pode criar mídia de áudio se a amostra e o texto forem fornecidos em idiomas diferentes. Isto destaca a sua aplicabilidade ao intercâmbio linguístico, criando oportunidades para uma comunicação mais orgânica através das barreiras linguísticas.

Ao integrar padrões verbais individuais e fala distinta em seu software, o Voicebox finalmente humaniza a geração de áudio. Isto cria um maior diálogo entre os meios de comunicação e as diferentes línguas. No entanto, o Voicebox também representa uma ameaça potencial à comunicação confiável. Por esse motivo, a Meta AI não divulgou o Voicebox ou seu código ao público. A empresa explica que projetou “um classificador altamente eficaz que pode distinguir entre voz autêntica e áudio gerado com Voicebox para mitigar esses possíveis riscos futuros”.

A FUNIBER promove estudos na área de tecnologia, conheça alguns programas como:

Fontes:

Voicebox é a nova ferramenta IA da Meta que recria a voz do usuário rapidamente

Voicebox: Generación de Voz Universal Multilingüe Guiada por Texto a Escala

Presentamos Voicebox: el primer modelo generativo IA para que el habla se generalice en todas las tareas con un rendimiento de última generación
Foto: Todos os direitos reservados.