Mardi, Meta a annoncé SeamlessM4T, un modèle d'IA multimodal pour la traduction du discours et du texte.
Étant un réseau neuronal capable de traiter à la fois le texte et l'audio, il peut effectuer des traductions de texte en parole, de parole en texte, de parole en parole, et de texte en texte pour « jusqu'à 100 langues », selon Meta. Son objectif est d'aider les personnes qui parlent différentes langues à communiquer entre elles plus efficacement.
Poursuivant l'approche relativement ouverte de Meta en matière d'IA, Meta publie SeamlessM4T sous une licence de recherche (CC BY-NC 4.0) qui permet aux développeurs de s'appuyer sur le travail. Ils publient également SeamlessAlign, que Meta appelle « le plus grand ensemble de données de traduction multimodal ouvert à ce jour, totalisant 270 000 heures d'alignements de discours et de texte extraits ».
Parmi les fonctionnalités de SeamlessM4T vantées sur le blog promotionnel de Meta, la société indique que le modèle peut effectuer la reconnaissance vocale (il convertit l'audio de la parole en texte), la traduction de la parole en texte (il traduit l'audio parlé en un texte dans une langue différente), la traduction de la parole en parole (il traduit l'audio parlé), la traduction de texte en texte (similaire à la façon dont fonctionne Google Translate), et la traduction de texte en parole (il traduit et prononce le texte dans une autre langue). Chacune des fonctions de traduction de texte prend en charge près de 100 langues, et les fonctions de sortie vocale prennent en charge environ 36 langues de sortie.
Une interface de démonstration fonctionnelle est disponible ici et les résultats sont impressionnants. Inutile d'être Madame Soleil pour prédire un avenir sombre au métier de traducteur... à très court terme.
-
3
Connectez-vous ou devenez membre pour participer et profiter de nombreux autres services.