La nouvelle IA de Facebook traduit entre 100 langues

20 octobre 2020 Hibou Gourou

Facebook a dévoilé un nouveau modèle d'IA open source capable de traduire entre 100 langues différentes. Son modèle d'IA n'a même pas besoin de convertir le texte existant en anglais, ce qui permet une traduction plus efficace et précise.

Présentation d'une nouvelle façon de traduire du texte

Dans un article de blog À propos de Facebook , la plateforme a détaillé son nouveau modèle de traduction automatique multilingue (MMT), également connu sous le nom de M2M-100. De manière assez impressionnante, ce modèle d'apprentissage automatique open source «peut traduire entre n'importe quelle paire de 100 langues sans se fier aux données anglaises».

Bien qu'il s'agisse encore d'un projet de recherche, il est très prometteur. Angela Fan, une assistante de recherche chez Facebook, a noté que les modèles de traduction automatique «typiques» utilisent différents modèles pour chaque langue, ce qui les rend incroyablement inefficaces pour les grandes plates-formes comme Facebook.

Même les modèles avancés ne le coupent pas, car ils utilisent l'anglais comme intermédiaire entre les langues. Cela signifie que le système doit d'abord traduire le texte source en anglais, puis le traduire dans la langue cible.

Les modèles basés sur l'anglais ne produisent pas les meilleures traductions. Fan note qu'en supprimant l'anglais de l'image, le système MMT de Facebook peut produire des traductions plus précises, déclarant:

Lors de la traduction, disons, du chinois vers le français, la plupart des modèles multilingues centrés sur l'anglais s'entraînent du chinois vers l'anglais et de l'anglais vers le français, car les données de formation en anglais sont les plus largement disponibles. Notre modèle forme directement sur les données chinois-français pour mieux préserver le sens.

Ainsi, au lieu d'utiliser l'anglais comme pont, le modèle MMT de Facebook peut traduire dans les deux sens entre 100 langues différentes. Selon Fan, Facebook a construit «l'ensemble de données MMT plusieurs-à-plusieurs le plus diversifié à ce jour», qui se compose de 7,5 milliards de paires de phrases pour 100 langues.

Pour accomplir cet exploit, l'équipe de recherche a exploité des données de traduction linguistique sur le Web, en se concentrant d'abord sur les langues «avec le plus de demandes de traduction». Les chercheurs ont ensuite classé ces langues en 14 groupes en fonction de caractéristiques communes.

À partir de là, les chercheurs ont établi des langues de pont pour chaque groupe et extrait les données d'entraînement pour toutes les combinaisons possibles. Cela a abouti à 7,5 milliards de phrases parallèles dans 2 200 directions.

Et comme pour les langues qui ne sont pas aussi répandues, Facebook a utilisé quelque chose appelé rétro-traduction pour créer des traductions synthétiques.

L'ensemble de ce processus rapproche l'équipe de Facebook AI de son objectif de créer un «modèle unique prenant en charge toutes les langues, dialectes et modalités».

Facebook se rapproche de fournir de meilleures traductions

Facebook effectue déjà 20 milliards de traductions chaque jour sur son fil d'actualité, et Facebook AI ne fera que rendre le processus plus efficace. Bien que le nouveau modèle de traduction n'ait pas encore été mis en œuvre, il sera certainement utile pour les utilisateurs internationaux de Facebook qui ont besoin de traductions spécifiques.