Guilherme Serrano
A Nvidia anunciou nesta segunda-feira (25) o Fugatto (Foundational Generative Audio Transformer Opus 1), um modelo avançado de inteligência artificial voltado para a criação e modificação de sons, música e vozes.
A nova inteligência artificial da Nvidia foi projetada para atender produtores de música, filmes e videogames, oferecendo possibilidades inovadoras na manipulação de áudio.
O Fugatto é capaz de:
- Gerar música e efeitos sonoros a partir de descrições de texto, como criar um trompete que “late como um cachorro” ou um saxofone que “mia como um gato”.
- Modificar áudio existente, transformando, por exemplo, uma melodia tocada em piano em uma linha vocal ou alterando o sotaque e o humor de uma gravação de voz.
- Criar paisagens sonoras dinâmicas, como o som de uma tempestade que gradualmente se transforma em um amanhecer com pássaros cantando.
O modelo utiliza uma técnica chamada ComposableART, que combina instruções vistas separadamente durante o treinamento, permitindo combinações artísticas de atributos, como sentimentos e sotaques.
De acordo com Bryan Catanzaro, vice-presidente de pesquisa de aprendizado profundo aplicado da Nvidia, o Fugatto representa um marco no uso de IA generativa para áudio, abrindo novas possibilidades criativas tanto para profissionais quanto para amadores.
🎵 ✨The world’s most flexible sound machine?
— NVIDIA AI Developer (@NVIDIAAIDev) November 25, 2024
With text and audio inputs, this new #generativeAI model, named Fugatto, can create any combination of music, voices, and sounds.🎹
Read more in our blog by @RichardKerris ➡️ https://t.co/AvTAbjn1iJ #NVIDIAResearch
Note: Some… pic.twitter.com/0IlYboF9JZ
O modelo foi treinado com 2,5 bilhões de parâmetros e utiliza GPUs Nvidia H100 Tensor Core, permitindo alta precisão em tarefas complexas. Além disso, a tecnologia pode realizar interpolação temporal, criando sons que evoluem ao longo do tempo, o que é particularmente útil em trilhas sonoras e efeitos em filmes e games.
Embora o Fugatto ofereça uma ampla gama de recursos inovadores, a Nvidia não planeja disponibilizá-lo ao público no momento, citando preocupações éticas e riscos potenciais associados ao uso indevido. Segundo Catanzaro, “qualquer tecnologia generativa sempre traz alguns riscos, pois pode ser usada para gerar conteúdos indesejados”.
O modelo foi desenvolvido por uma equipe global e treinado com dados de código aberto. A empresa ainda debate as condições sob as quais poderia disponibilizar a ferramenta de forma responsável, garantindo que seu impacto seja positivo.
O Fugatto exemplifica como a inteligência artificial está transformando a produção de conteúdo, seguindo tendências de startups e grandes empresas como Meta, que também investem em IA para geração de áudio e vídeo.
A nova tecnologia da Nvidia não apenas promete revolucionar o setor de entretenimento, mas também democratizar a criação artística, permitindo que qualquer pessoa explore novas formas de expressão sonora.
Guilherme Serrano