Na Meta: o Audiobox é uma plataforma com IA generativa capaz de replicar estilos vocais e criar efeitos sonoros a partir de áudios e prompts
A Meta, controladora do Facebook, Instagram, WhatsApp, lançou (11) o Audiobox. A plataforma usa inteligência artificial (IA) generativa para clonar vozes e a big tech a disponibilizou com algumas ressalvas.
Meta- Audiobox – Para que tem pressa:
- Lançamento: A Meta lançou (com ressalvas) o Audiobox, uma plataforma de inteligência artificial (IA) que clona vozes e gera efeitos sonoros a partir de áudios e comandos de texto (prompts);
- Tecnologia e Modelos Utilizados: A Meta desenvolveu uma “família de modelos” para o Audiobox, que utiliza aprendizado auto-supervisionado (SSL). O desenvolvimento envolveu grandes quantidades de dados de áudio em vários idiomas – mas a origem e o uso de material protegido por direitos autorais não foram detalhados pela empresa;
- Demonstração e Restrições: A Meta demonstrou as capacidades do Audiobox com exemplos interativos. A plataforma é restrita a fins de pesquisa, entretanto não pode ser usada comercialmente. Além disso, é restrita em certos estados dos EUA, devido às leis locais;
- Código Aberto e Planos Futuros: Diferentemente de outros projetos de código aberto da Meta, o Audiobox não é de código aberto. Aliás, até o momento, a empresa não anunciou planos de torná-lo disponível para uso comercial ou aberto.
A replicação de estilos vocais das pessoas, incluindo tom, timbre, assim como, ritmos, maneirismos e pronúncias – é uma área emergente na IA generativa. No caso do Audiobox, o recurso foi apresentado pelo laboratório de pesquisa de IA do Facebook como um “novo modelo de pesquisa para a criação de áudio”.
Nova IA
O Audiobox permite essencialmente a geração de vozes e efeitos sonoros combinando entradas de voz e comandos (prompts) de texto. Assim, o recurso possibilita aos usuários digitar frases ou descrever sons para geração automática. Também permite clonar a voz do usuário a partir de gravações. Dessa forma, o Audiobox utiliza aprendizado auto-supervisionado (SSL), permitindo que algoritmos gerem rótulos para dados não rotulados.
Entretanto, o desenvolvimento do Audiobox dependeu de grandes quantidades de dados de áudio, incluindo fala, música e amostras sonoras de várias fontes e em diferentes idiomas.