Nvidia réinvente l'audio avec son IA capable de transformer et créer des voix inédites

Carlos PIRES

25 novembre 2024 à 23h43

Nvidia a présenté Fugatto, un nouveau modèle d'intelligence artificielle permettant de générer de la musique et de l'audio, capable de modifier les voix et de générer de nouveaux sons.

Il s'agit d'une technologie destinée aux producteurs de musique, de films et de jeux vidéo.

Nvidia, le plus grand fournisseur mondial de puces et de logiciels utilisés pour créer des systèmes d'IA, a déclaré qu'il n'avait pas l'intention dans l'immédiat de publier publiquement la technologie, qu'il appelle Fugatto, abréviation de Foundational Generative Audio Transformer Opus 1.

Elle rejoint d'autres technologies présentées par des startups telles que Runway et des acteurs plus importants tels que Meta Platforms, qui peuvent générer de l'audio ou de la vidéo à partir d'une invite de texte.

La version de Nvidia, basée à Santa Clara, en Californie, génère des effets sonores et de la musique à partir d'une description textuelle, y compris des sons inédits tels que l'aboiement d'une trompette comme celui d'un chien. Ce qui la différencie des autres technologies d'IA est sa capacité à absorber et à modifier l'audio existant, par exemple en prenant une ligne jouée sur un piano et en la transformant en une ligne chantée par une voix humaine, ou en prenant un enregistrement de paroles et en changeant l'accent utilisé et l'humeur exprimée.

A telesatellite.com, nous avons déjà expérimenté la création d'audio et de voix pour créer un flash info audio 100 % automatisé.